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PRÉFACE 


L'algèbre linéaire est-elle une théorie compliquée? 

Début des années 1950. Les premières promotions des étudiants 
en analyse numérique devant lesquels s'ouvre le monde passionnant 
de nouveaux problèmes encore jamais explorés. Et puis, au lieu de 
la perspective séduisante, une proposition insolite: se consacrer à 
la rédaction des programmes susceptibles d’assurer le fonctionnement 
des calculatrices électroniques pour la résolution des problèmes 
d’algèbre linéaire. La proposition n’a pas inspiré de grand enthou- 
siasme. 

On comprend sans peine la raison. Nous avons été formés dans 
l'esprit des cours classiques de la faculté des Mathématiques. La 
présentation de l'algèbre linéaire était si claire, si nette, qu’il était 
impossible de mettre en doute la résolution totale de tous les problè- 
mes principaux relatifs à ce domaine des mathématiques. 

En effet, la théorie des déterminants donnait une réponse exhaus- 
tive à la question des conditions d’existence de la solution d’un 
système d'équations algébriques linéaires, alors que la règle de 
Cramer indiquait sa forme explicite. Tous les problèmes spectraux 
se ramenaient surtout à deux problèmes: recherche des racines 
d’un polynôme ou résolution d’un système d'équations. Qui plus 
est, nous avions à notre disposition des méthodes numériques aussi 
« efficaces » que celles de Gauss, de Danilevski, etc. Il semblait que 
ces méthodes permettaient de résoudre les problèmes d’algèbre liné- 
aire dans toute leur totalité. C’est pourquoi nous interprétions la 
tâche qui nous a été confiée comme un processus purement mécani- 
que de traduction d’un nombre énorme d’algorithmes numériques 
connus à l’époque du langage universellement connu des formules 
mathématiques en langage de commande des ordinateurs. 

La réalité s’est avérée bien plus complexe. Ce n’est qu'après 
de nombreux erreurs et déboires que nous avons compris que côte 
à côte de l'algèbre linéaire classique non seulement existe, mais 
prend de l'essor une toute « autre » algèbre linéaire, dont on nous 
n’a presque rien dit ni dans les cours essentiels, ni même dans les 
cours spéciaux. Cette algèbre linéaire était intimement liée aux 
nombreuses branches des mathématiques, ses racines plongeaient 
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dans les applications les plus variées, elle poussait à compter sur 
les particularités des calculatrices électroniques et les langages de 
programmation, imposait la résolution de nouveaux problèmes à 
systèmes et ne s’accordait d’aucune façon à l'opinion largement 
admise de la toute puissance des ordinateurs. On la disait numé- 
rique, bien que l’adjectif était loin de traduire complètement le 
contenu de cette « autre » algèbre linéaire et la ramenait souvent au 
niveau de la jonglerie avec des transformations mathématiques. 

La simplicité relative de la théorie et l'efficacité apparente des 
méthodes numériques disponibles nous tenaient longtemps prison- 
niers. Malheureusement, aujourd’hui encore nombreux sont les 
mathématiciens qui ne voient pas toute la complexité caractéris- 
tique des problèmes d'’algèbre. 

À notre avis, cette situation est due aux principes d'enseigne- 
ment, à la méthodologie, au contenu des cours essentiels et spéciaux 
faits dans les établissements d'enseignement supérieur. Pendant 
les quinze dernières années l'algèbre numérique a fait un grand saut 
pour devenir l’une des branches les plus développées de l’analyse 
numérique. Or, en règle générale, le contenu des cours traduit faible- 
ment les progrès acquis et les conférences sont présentées comme par 
le passé sous forme d’exposé de divers faits du type théorèmes d'’exis- 
tence, sans tenir compte des problèmes que posent les calculs. 

Dans un institut, les étudiants en Calcul numérique sont dès 
les premières conférences initiés à l’algèbre linéaire. La façon dont 
est présenté le cours et son contenu théorique déterminent donc 
pour beaucoup les principes qui sont à la base de la perception de 
l'analyse numérique dans son ensemble. 

Il est impossible de ne pas reconnaître l'élégance, la beauté de 
la théorie construite sur les notions de dépendance linéaire, de base, 
de déterminant, etc. Mais tous les calculs pratiques qui leur sont 
liés sont très instables. Il s’ensuit que les méthodes d'investigation 
utilisées dans la première partie du cours théorique sont peu utiles 
pour la construction directe des méthodes numériques et rendent 
souvent tout simplement incorrecte l'intelligence de l'aspect numé- 
rique de la tâche. 

Cependant, le fait qu’il en est ainsi fournit en réalité au confé- 
rencier des moyens qui favorisent particulièrement la formation des 
vues scientifiques des élèves pour lesquels l’analyse numérique doit 
être une des disciplines principales de l’enseignement. La réalisation 
de cette possibilité impose, certes, la modification du cours théorique 
de l'algèbre linéaire tout entier, mais le gain peut être très grand. 
Les méthodes numériques de l'algèbre s’intégreront naturellement 
au cours général, il ne faudra plus exposer pendant des heures pré- 
cieuses du cours leurs principes et, ce qui importe surtout, il sera 
facile de montrer à l'élève l'intérêt pratique immense du cours 
d’algèbre linéaire dans toute son entité. 


PRÉFACE 1 


L'absence d'unité organique dans la méthodologie du cours 
théorique et pratique rend impossible la formation efficace des 
étudiants en Analyse numérique. L'auteur lui-même l’a réalisé 
dans la pleine mesure pendant ses premières années d'enseignement. 
Le temps passé depuis cette époque est déjà bien long. Mais chaque 
fois de nouveau la situation se présente avec une constance frappante. 
Malheureusement, aujourd’hui encore, un jeune spécialiste en 
Analyse numérique est souvent tout à fait incapable de résoudre cor- 
rectement un système d'équations algébriques linéaires, sans déjà 
parler du problème des valeurs propres. 

Autant de raisons pour essayer de rédiger plusieurs ouvrages di- 
dactiques d’algèbre linéaire liés entre eux et établis sur une base 
unifiée, qui contiendraient le minimum nécessaire de connaissances 
théoriques, sans lequel il est impossible de s’assimiler toute la riches- 
se de l’analyse numérique, et qui traiteraient des problèmes actuels 
dans le domaine de la conception des méthodes numériques. 

Le cours que nous présentons au lecteur est le troisième ouvrage 
de cette série, dans laquelle il est précédé par l’exposé théorique 
[1] et le recueil de problèmes [4]. Son objectif est d'exposer les prin- 
cipes numériques de l’algèbre linéaire. 

L'idée maîtresse de l'ouvrage a été suggérée par les difficultés 
sur lesquelles on tombe dans l'étude des méthodes numériques. Dès 
la première initiation à la littérature existante, en consultant un 
ouvrage bibliographique, par exemple [8], on reste perplexe : « Pour- 
quoi la résolution, au fond, d’un petit nombre de problèmes d’algèbre 
linéaire a donné vie aux ouvrages en un si grand nombre? » Il est 
impossible de donner une réponse univoque, le phénomène étant 
conditionné par des facteurs multiples. 

L'algèbre linéaire est caractérisée par l'étendue exceptionnelle 
de ses applications. Les particularités concrètes d’un problème con- 
duisent à l’établissement de modifications nouvelles des méthodes 
numériques, alors que le désir de résoudre de la meilleure façon le 
problème donné accroît leur nombre. C'est là que gît, d’après nous, 
la cause qui détermine la foison des publications. 

Que veut dire: résoudre le problème au mieux? Si le problème 
est résolu sur un ordinateur, la situation typique pour l’algèbre 
linéaire est l'utilisation des programmes standards. Pour le moins, 
c'est ce qui devrait être. Mais pour l'usager d’un ordinateur il est 
indifférent laquelle des méthodes numériques est à la base de tel 
ou tel programme standard. Il n’y a que trois caractéristiques qui 
l'intéressent : le temps de calcul, le volume de mémoire et la pré- 
cision. 

Il est relativement facile de comparer les méthodes d’après 
les deux premières caractéristiques. Quand il s’agit de la précision, 
la tâche devient beaucoup plus compliquée. Il est même difficile 
de dire comment comparer les méthodes suivant la précision. C'est 
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cette circonstance qui explique le grand nombre d'ouvrages ne 
disant rien sur la précision des méthodes ou réduisant la démons- 
tration de l'avantage de l’une d'’elles à des arguments empiriques 
et des considérations émotionnelles. 

Nous avons déjà noté l'apparence trompeuse de la simplicité 
des énoncés des problèmes d'’algèbre linéaire. Cependant, pour bien 
le réaliser, il faut étudier l’influence exercée par les erreurs d’arrondi 
et les perturbations des données d'entrée sur l'exactitude de la ré- 
ponse. 

Un progrès notable dans l'étude de la stabilité des méthodes 
numériques a été enregistré il y a relativement peu longtemps: 
il est dû à ce qu’on appelle analyse inverse des erreurs. L'idée maïi- 
tresse de cette analyse consiste à examiner la solution réellement 
obtenue comme solution exacte de ce même problème, mais avec 
des données d'entrée perturbées. Dans ces conditions, la perturba- 
tion elle-même est choisie de façon que son action soit équivalente à 
l'influence commune de toutes les erreurs d’arrondi. 

L'analyse inverse a donné l’idée mais non pas l'outil de l’étude 
des erreurs d’arrondi. Même pour les algorithmes les plus simples, 
l’étude des perturbations équivalentes est toujours un travail pénible 
et fatigant qui impose un grand nombre de calculs délicats. Néan- 
moins, l’analyse inverse a permis d'évaluer l'influence commune 
des erreurs d’arrondi et des erreurs des données d’entrée sur la pré- 
cision des résultats et de comparer sur cette base les méthodes numé- 
riques entre elles. 

L'’exploration des meilleures méthodes numériques de l'algèbre 
linéaire a révélé la petitesse extraordinaire de leurs perturbations 
équivalentes. La plupart de ces méthodes, prévues pour la résolution 
des systèmes d'équations, a trouvé place dans le présent ouvrage. 
On y trouve également de nombreux algorithmes algébriques auxi- 
liaires qui permettent de construire de nouvelles méthodes numé- 
riques. 

Il se peut qu'après l'étude de cet ouvrage le lecteur voudra ré- 
soudre son problème en faisant appel à l’une quelconque parmi 
d’autres méthodes. Avant de mettre ce désir à exécution, il n’est 
pas superflu d'exécuter pour la nouvelle méthode une analyse aussi 
minutieuse des erreurs que celle qui a été faite pour toutes les mé- 
thodes numériques de l'ouvrage. 

Pour ce qui est de la question posée au début de la préface, l’al- 
gèbre linéaire est réellement une science bien simple si on ne sort 
pas du cadre des énoncés classiques du cours et si on ne se rend pas 
compte des problèmes complexes qu'elle pose. Et quel est votre 
avis à ce propos ? 


V. Voïévodine 


CHAPITRE PREMIER 


PARTICULARITÉS MATHÉMATIQUES 
DE L’ARITHMÉTIQUE DE MACHINE 


Les machines de calcul actuelles sont devenues élément essentiel 
des recherches scientifiques les plus variées. Elles permettent d’auto- 
matiser les processus de calcul les plus complexes et de résoudre assez 
vite et sous la forme requise de nombreux problèmes. Or, pour mener 
à bien cette tâche il faut dépouiller en réalité un immense volume 
d’information. Ce dépouillement peut être tout à fait simple ou très 
compliqué, mais, finalement, il se ramène toujours à l'exécution des 
opérations successives les plus simples, décrites par le système de 
commandes d’une calculatrice électronique. 

Les relations homme-machine au niveau du système de com- 
mandes ne sont pas efficaces pour la majorité écrasante des usagers 
des ordinateurs. C’est pourquoi elles sont établies à l’aide des lan- 
gages de machine du type Algol, Fortran, etc. Ces langages comptent 
de nombreux symboles mathématiques qui s’emploient pour décrire 
les opérations arithmétiques sur des données numériques. Cela ne 
signifie pourtant pas que les opérations réalisées sur une calculatrice 
électronique possèdent les mêmes propriétés que les opérations 
mathématiques. 

L'arithmétique de machine a ses particularités caractéristiques. 
Si on en tient compte correctement, la résolution des problèmes 
sur des ordinateurs peut être efficace. Mais si on les néglige, les 
résultats obtenus sont souvent incorrects. 


$ 1. Systèmes de numération 


L'effet général de la résolution d’un problème, et même la pos- 
sibilité de le résoudre, est déterminé pour beaucoup par le mode 
d'exécution des opérations sur les nombres. Or, ce mode, à son 
tour, dépend du système adopté d'écriture des nombres ou, comme 
on dit, du système de numération. 

Le mode le plus parfait de la notation des nombres est celui qui 
est à la base de notre système décimal. On sait que tout nombre non 
négatif x peut être mis sous la forme d’une série exponentielle 


z=an.10+a, 1014 ...+a+a.,.10 +a,.10 24... 


10 PARTICULARITÉES DE L'ARITHMÉTIQUE DE MACHINE [CH. I 


où les coefficients a; peuvent prendre les valeurs 0, 1, 2, ..., 9. 
Après avoir recensé consécutivement tous les coefficients, indiqué 
la position de la virgule et affecté au nombre un certain signe, nous 
passons au système d'écriture suivant: 


LT —= + dhdh_ . Go; Œ_1; Œ_o e. +. 0 


Malgré la simplicité apparente, ce système a été le fruit d’un 
long progrès historique. Pierre-Simon Laplace, le grand mathé- 
maticien et physicien français, écrivait que l’idée d'exprimer tous 
les nombres par neuf signes en leur donnant en plus de la signification 
suivant la forme, encore une importance suivant la place, est si 
simple, que c'est justement à cause de cette simplicité qu’il est 
difficile de comprendre combien elle est frappante. L'exemple d’Ar- 
chimède et d’Apollonium, les plus grands génies de l'Antiquité, 
auxquels cette idée est demeurée obscure. montre comme il est 
difficile d'aboutir à cette méthodologie. 

[1 n’y a pas d’autre système de numération qui serait en principe 
à la base de la conception des calculatrices digitales modernes. 
L'écriture des nombres avec lesquels opère un ordinateur est régie 
par la même idée que le système décimal. Du point de vue mathé- 
matique, les modifications essentielles pen importantes sont les 
suivantes. 

Fixons un certain nombre entier positif p >1 et les nombres 


entiers &o, y, - - «> Œp-1+ SUPpOSOns que tout nombre non négatif x 
peut se mettre sous la forme de la série 


z=b,p"+b,ptt+...+b<+bipt+bpt+..., (1.1) 


où chacun des coefficients b; peut prendre l’une des valeurs &,, &, . - 
..., Gp. En écrivant encore successivement tous les coefficients, 
indiquant la position de la virgule et affectant au nombre un certain 
signe, nous obtiendrons une écriture analogue 


TI = +b,b,- .….. bo, b:, Do ... (1.2) 


Les systèmes de numération qui viennent d'être décrits sont 
dits positionnels. Cet adjectif est dû au rôle que joue chaque nombre 
dans la notation (1.2) et qui dépend de la position qu’il occupe. 
La position est déterminée par la place de la virgule, ou, ce qui 
revient au même, par celle du coefficient b,. 

Dans la littérature consacrée au calcul numérique, le terme 
« position » est le plus souvent remplacé par le terme « rang ». Les 
rangs se comptent dans l’ordre décroissant, successivement de gauche 
à droite, le premier rang à gauche de la virgule portant le numéro 
zéro. On distingue les rangs du nombre avant la virgule et après 
la virgule. Le nombre p s'appelle base du système de numération, les 
nombres &o, @, - - . &h1, nombres de base. Si on utilise le système 
de numération de base p, le second membre de (1.2) s'appelle frac- 
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tion p-naire. On dit infinie pour une fraction dont l'écriture (1.2) 
compte un nombre infini de coefficients non nuls. Dans le cas con- 
traire, on dit qu'elle est finie. Généralement, dans l'écriture d’une 
fraction (1.2) on supprime tous les premiers et derniers coefficients 
nuls. Si tous les coefficients qui suivent la virgule sont nuls, la 
virgule est omise elle aussi. 

Le choix des nombres de base @&+, 1, . . ., &h_, est déterminé 
surtout par la commodité du travail avec les nombres réels du système 
de numération donné. On ne connaît pas les avantages que pourrait 
donner l'utilisation des nombres de base dépassant en module la 
base du système de numération. C’est pourquoi nous admettons que 


| (O5 | < P (1.3) 
pour tout #. Dans la technique du calcul digital moderne on utilise 
le plus souvent les systèmes de numération à nombres de base a; = k. 


Théorème 1.1. Si les nombres de base forment la collection 
0, 1,..., p — 1, alors tout nombre réel peut être mis sous la forme 
d'une fraction p-naire (1.2). 

Démonstration. Prouvons que tout nombre rx peut être 
mis sous la forme d’une série (1.1). Il est clair qu’il suffit de considé- 
rer seulement les nombres x positifs. 

Il existe un nombre entier nr, tel qu’il vérifie les relations 


p"1 Lr< pari, 


Choisissons le plus grand nombre b,, de la collection 1,2,...,p —1 
tel que 


: bnp LT (bn, +1) pi. (1.4) 
i 
z—bh,p"=0, 


la série (1.1) est alors obtenue. Supposons donc que 
z— bn, p"1 > 0. 

Cherchons ensuite un entier #7, tel que 

pri T— bnp << pret, 
puis choisissons dans la collection 1, 2, . .., p — 1 le nombre b,, 
tel que 

bneP LT — bn" € (bn: + 1) pe. 

En vertu des relations (1.4) nous tirons la conclusion que nr, > n2. Si 

z—bn,pti—bn.p":=0, 
le calcul de la série (1.1) est achevé. C’est pourquoi nous reconsidé- 
rons le cas 

z—bh,p"1 — b,,p": > 0. 
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En poursuivant ce processus, nous obtenons une suite des nom- 
bres entiers ñn, >ne ns >>... et des nombres b,,, b,,, b,,, . .. 
extraits de la collection 1, 2, ..., p — 1. Dans ces conditions on 
a soit pour un certain 


k 
TZ — > bn,p"t=0, (1.5) 
i— 
soit pour tous les x 
k 
p'an<z— N b,p'i< p'antt, (1.6) 
i=1 


L'espace des nombres réels étant complet, les relations (1.5) et 
(1.6) signifient que 


Les nombres b,,, b,,, bh,, . . . forment une suite des coefficients non 
nuls de la fraction p-naire cherchée. 

Les opérations arithmétiques sur les nombres donnés en tout 
système de numération sont régies par les mêmes règles que celles 
du système décimal. Il en est ainsi du fait que toutes les opérations 
sont fondées sur l’exécution des opérations sur les polynômes corres- 
pondants. Il faut alors utiliser les tables d’addition et de multipli- 
cation établies non pas dans le système décimal, maïs dans le système 
de base p. Pour chaque système concret, la composition de ces tables 
est très simple. 

Les systèmes de numération positionnels s’emploient largement 
dans la technique de calcul moderne pour la représentation des 
nombres. Le plus simple d’entre eux et le plus employé est le système 
de numération binaire. Le recours aux systèmes positionnels et 
non pas à d’autres systèmes s'explique par la possibilité qu’ils 
présentent de réaliser des algorithmes assez simples assurant l’exé- 
cution des opérations arithmétiques sur les nombres. 


EXERCICES 


On suppose partout que les nombres de base sont 0, 1, ..., p — 1. 

1. Ecrire une fraction p-naire du nombre p. 

2. Composer les tables de multiplication et d'addition pour le système de 
numération binaire. 

3. Comment trouver d’après une fraction p-naire d’un nombre sa fraction 
p'-naire. où #7 est un nombre entier positif ? 

4. Une fraction finie dans un système de numération d’une base le sera-t- 
elle aussi dans tous les autres systèmes ? 

5. Quels nombres rationnels peuvent être représentés exactement par des 
fractions p-naires finies ? 

6. Quelle partie du nombre représentent les rangs à gauche (à droite) de la 
virgule ? 


$ 2 ARRONDISSEMENT DES NOMBRES 13 


7. Indiquer un algorithme quelconque de division des fractions p-naires 
finies. 

8. Quel sens peut-on donner à l'expression p In p ? Pour quel p la valeur de 
cette expression est minimale ? 


$ 2. Arrondissement des nombres 


Il n'existe pas de moyens techniques permettant d'exécuter des 
opérations arithmétiques sur les nombres donnés par des fractions 
infinies. C'est pourquoi tout nombre doit être remplacé par une 
fraction finie. 

On dit arrondir un nombre jusqu'à s rangs dans le système de 
numération donné pour exécuter l'opération qui consiste à remplacer 
le nombre considéré par un nombre dont, dans le même système 
de numération, tous les rangs à partir de s — 1 sont nuls. La diffé- 
rence entre les nombres à arrondir et arrondi s'appelle erreur d'arrondi. 

Notons que cette définition ne dit rien ni sur la façon d'arrondir, 
ni sur la valeur qui sépare le nombre arrondi du nombre à arrondir. 
Et ceci n’est pas l'effet d’un hasard. Lorsqu'on établit pratiquement 
les projets des ordinateurs, on prévoit les modes les plus variés de 
réalisation des opérations d'arrondissement. La seule chose qui 
associe les divers modes, c’est la petitesse des erreurs d’arrondi, au 
moins pour la plupart des nombres. Avant d'exposer les prescriptions 
auxquelles doivent satisfaire les erreurs d'arrondi, nous effectuerons 
certaines études. 

L'un des modes d'arrondissement les plus simples est le suivant. 
Soit une fraction p-naire z = b, ... b,b,_1b,_ . . ., que nous consi- 
dérerons pour simplifier comme non négative. Prenons le nombre 
z, = b,...b, comme résultat d'arrondissement du nombre zx jusqu'à 
s rangs. Le mérite principal de ce procédé est sa simplicité. Pourtant, 
dès le début on voit certains de ses défauts. 

Supposons que les nombres de base soient 0, 1, ..., p — 1. 
Alors. l'erreur d’arrondi vérifie la relation 


[T, — x [<p° 


L'égalité s'obtient lorsqu'à tous les rangs du nombre x à partir de 
s — 1 se trouvent les nombres p — 1. La comparaison avec la règle 
d'arrondissement universellement adoptée du système décimal mon- 
tre‘’que, dans le cas considéré, l'estimation de l'erreur est deux fois 
plus grande. Mais ce qui importe bien plus, c'est que, indépendam- 
ment de sa valeur, l’erreur d’arrondi a toujours le même signe, opposé 
au signe du nombre à arrondir. Ce phénomène est indésirable du fait 
que, apparemment, dans les processus de calcul, il conduirait à 
l'accumulation rapide des erreurs. Par la suite, cette hypothèse 
sera confirmée à plus d’une reprise. 

Bien que la méthode décrite de l’arrondissement des nombres ne 
soit pas la meilleure, c’est à elle que sont liées toutes les autres 
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méthodes. En effet, quel que soit le mode d’arrondissement, son 
résultat sera un nombre dont tous les rangs à partir de s — 1 sont 
nuls. Par conséquent, l’opération d'arrondissement peut être traitée 
comme le rejet de tous les rangs depuis s — 1 et l'addition ou la 
soustraction ultérieure d’un certain nombre multiple de p‘. Pour 
rendre petite l'erreur d’arrondi, il faut également que ce nombre soit 
petit. 

Les nombres qui possèdent des rangs nuls à partir de s — 1 for- 
ment sur l’axe des réels un réseau régulier à pas p°. Parmi ces nom- 
bres il y a z*, le nombre le plus proche de zx. Il est clair que 

a 2] Sp. (2.1) 
D'après des considérations géométriques, la meilleure approxima- 
tion de x? à x sera unique, si la relation (2.1) est son inégalité stricte, 
et il y aura deux approximations, si la relation donne lieu à une 
égalité. On vérifie sans peine que 


- | 
Li; Si |T—zx,| << 5 P" 


ri) Z+p, si z—21>+ p, (2.2) 


bb 


| soit zs, soit zs+p, Si [z—z| =-p". 


Le remplacement du nombre x par le nombre x? est une opéra- 
tion d’arrondissement, et de plus, la meilleure sous plusieurs rapports. 
Pourtant, comparée à l’opération décrite dans ce qui précède, elle 
présente deux incovénients substantiels. Comme il résulte de (2.2), 
à peu près dans la moitié des cas sa réalisation impose l’addition. 
Un nombre devant être arrondi après chaque opération arithmétique, 
d’après (2.2) l'arrondissement entraîne que le fonctionnement des 
éléments calculateurs d’un ordinateur se trouve ralenti. De plus, 
la variante considérée rend l’opération quelque peu ambiguë, résul- 
tat défini par le troisième cas de (2.2). Nous verrons dans ce qui 
suit que cette ambiguïté n’est pas inoffensive du tout. 

Le désir de réunir les mérites des deux modes n’est que naturel. 
Montrons que cet effet peut être atteint en utilisant des systèmes 
de numération spéciaux. 

Nous avons admis jusque-là que les nombres de base du système 
de numération p-naire sont O, 1, 2, ..., p — 1. Mais il s’est avéré 
que dans ce système le meilleur mode d'arrondissement quant à la 
précision n’est pas le plus simple, qu’il ralentit souvent l’exécution 
des opérations arithmétiques. Examinons maintenant des systèmes 
p-naires qui utilisent d’autres collections de nombres de base. Avant 
d'explorer la possibilité de représenter les nombres de tels systèmes, 
voyons ce que pourra nous fournir le choix des nombres de base. 
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Soient des nombres donnés dans un système p-naire aux nombres 
de base «&,. Dans ce système aussi l’estimation de l'erreur d’arrondi 
sur la classe des nombres réels donnée par la meilleure approximation 
z$ de x, n’est pas meilleure que (2.1). C'est pourquoi, si nous trouvons 
les nombres de base tels que tout nombre x vérifie l'inégalité 


map (2.3) 


le système de numération sera alors le meilleur sous plusieursrapports. 
Plus précisément, l'opération qui permettra de rejeter tous les rangs 
à partir de s — 1 sera non seulement la plus simple, mais son erreur 
d’arrondi sera encore la plus petite. 

Pour observer la condition (2.3) il est nécessaire et suffisant que 
sous les nombres de la forme 


0... Obubio... 


soient pas plus grands en module que (1/2) p°. A cet effet, à son 
jour il est nécessaire et suffisant de satisfaire à la condition 

max |@&|< ne : (2.4) 

OLSRLpP—1 = 

Tout système p-naire doit compter p nombres de base différents. 
Mais l'inégalité (2.4) ne compte p solutions en nombres entiers dif- 
férentes par rapport à &, que lorsque p est impair, &; étant eux- 
mêmes définis univoquement. Plus précisément, 


ax = (1 + 2% — p}/2. 


De la sorte, si le système de numération cherché existe, il doit 
avoir une base impaire et des nombres de base —(1/2) (p — 1), ... 
..., +(1/2) (p — 1). Notons que dans de tels systèmes aucun besoin 
n’est de représenter en plus le signe du nombre, puisqu'il est compris 
dans la partie chiffrée. De tels systèmes sont dits condensés. 


Théorème 2.1. Sipest un nombre impair et si les nombres de 
base forment l'ensemble —(1/2) (p — 1), ..., +(1/2) (p — 1), tout 
nombre réel x peut être mis sous la forme de la série (1.1). 

Démonstration. Considérons encore, pour fixer les idées, 
que le nombre zx est positif. La démonstration de ce théorème est 
fondée également sur le calcul successif de tous les coefficients de la 
série (1.1) et, dans le sens conceptif, ne se distingue presque pas de 
la démonstration du théorème 1.1. Pour obtenir la série (1.1). les 
fractions finies du théorème 1.1 approximaient le nombre x toujours 
par défaut. La seule différence de notre cas est que les coefficients 
de la série (1.1) se calculent en admettant que la fraction finie cor- 
respondante approxime de la meilleure façon le nombre x, c’est-à-dire 
en admettant une approximation aussi bien” par défaut que par 
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excès. Nous ne nous attarderons pas aux détails de la démonstra- 
tion. la laissant au lecteur à titre d'exercice. 

Parmi les systèmes de numération positionnels condensés, le plus 
simple est le système ternaire. Comme nous l'avons déjà signalé, 
les techniques modernes de calcul numérique recourent le plus 
souvent au système binaire. Du point de vue d’arrondissement des 
nombres, ce choix n’est pas le meilleur, puisque, par exemple, 

Le système de numération ternaire condensé assure un mode plus 
simple de meilleur arrondissement des nombres sans ralentir l'exécution 
des opérations arithmétiques. 

Dans ce qui suit nous indiquerons d’autres avantages encore que 
présentent les systèmes de numération condensés du point de vue 
de l’action exercée par les erreurs d’arrondi sur le processus de calcul. 


EXERCICES 


Dans ce qui suit il s’agit partout d’un système de numération condensé. 


1. Ecrire la fraction p-naire du nombre p. 
2. Démontrer que le signe d’un nombre coïncide avec le signe du premier 


rang. 
3. Démontrer que x, > zx, si le premier des rangs non nuls rejetés est néga- 


tif et que x, < x, s’il est positif. 

4. Démontrer que le nombre (1/2) p* ne peut pas être donné par une frac- 
tion finie. 

5. Démontrer que l’arrondissement des fractions finies ne donne pas lieu 


dans (2.2) au cas d’ambiguïté. 
6. Quel ensemble des nombres est représenté d’une façon non unique? 
7. Quelle partie d’un nombre représentent les rangs à gauche (à droite) 


de la virgule? 


$ 3. Virgule fixe et virgule flottante 


La mémorisation de l'information numérique par les calculatrices 
modernes est fondée sur l’utilisation des éléments de même type 
suffisamment simples. Chacun de ces éléments est constitué par un 
dispositif physique muni de p états physiques stables, où p > 1. 
Le dispositif lui-même permet de passer de l’un quelconque de ses 
états à n'importe quel autre. Ces éléments sont dits de base et servent 
pour simuler un rang numérique d’un système de numération p-naire. 

Un ordinateur ne peut se composer d’un nombre infini d'éléments 
de base. C’est pourquoi il ne peut toujours opérer qu'avec un nombre 
fini de fractions p-naires finies. C’est une conclusion importante 
qui entraîne toutes les particularités essentielles de l’arithmétique 
de machine. 

La nécessité d’unifier l'exécution de toutes les opérations arith- 
métiques sur les nombres impose l'unification de la représentation 
sur ordinateur de toutes les fractions finies. Considérons, pour sim- 
plifier, la représentation des fractions sans signe, en admettant que 
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le signe est soit pris en considération dans le système de numération 
lui-même, soit représenté d’une autre façon quelconque. 

Supposons que chaque fraction est représentée par le même 
nombre t d’éléments de base. Il est clair que t éléments ne peuvent 
servir que pour représenter pas plus de t rangs d’un nombre quel- 
conque. Pour que cette représentation puisse être lue de nouveau, 
il faut établir la correspondance biunivoque entre les éléments de 
base affectés à la représentation de chaque nombre et la position 
des rangs du nombre par rapport à la virgule. Suivant que cette 
correspondance est la même pour tous les nombres représentés ou 
dépend du nombre lui-même, on distingue deux modes principaux 
de représentation des nombres sur ordinateur, dits respectivement à 
virgule fixe et à virgule flottante. 

Supposons que tous les t éléments de base servent pour repré- 
senter t rangs successifs des nombres, la position de ces rangs par 
rapport à la virgule étant fixe et la même pour toutes les fractions. 
Admettons que les rangs à gauche de la virgule sont représentés 
par r éléments, où r>0. C'est le mode qu’on appelle représentation 
en virgule fixe. 

Il permet de retenir exactement l’une quelconque des fractions 
finies p-naires possédant au plus r rangs non nuls à gauche de la 
virgule et au plus t — r rangs non nuls à droite de la virgule. Toutes 
ces fractions x reposent dans l'intervalle 


—p" <z <P. 

On voit tout de suite l’un des inconvénients de la représentation 
des nombres en virgule fixe. Si une fraction p-naire est sensiblement 
inférieure en module à p”, la plus grande partie des éléments de base 
qui lui sont affectés représentent les rangs nuls de poids supérieur 
et en fait ne sont pas utilisés. C’est pourquoi l’approximation d’un 
nombre par une telle fraction est associée toujours à une grande erreur 
relative. Toutefois, pour représenter les rangs non nuls supérieurs 
en poids des nombres voisins en module de p”, on utilise tous les + 
éléments de base. Dans ce cas, l’erreur relative de l’approximation 
est minimale. L'erreur absolue de la représentation des nombres en 
virgule fixe repose dans les mêmes limites, indépendamment de la 
grandeur des nombres. 

Voici en quoi consiste la représentation des nombres en virgule 
flottante. Tout nombre non nul z peut être mis sous la forme 


z = a-p°, (3.1) 
où b est un nombre entier et 
1/p<lal <1. (3.2) 


Le nombre a s’appelle mantisse du nombre zx, le nombre b est son 
ordre. Supposons qu’on affecte à l’image de l’ordre sans signe r 


2—0484 
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éléments de base, et à l’image de la mantisse sans signe, t — r élé- 
ments. Si, maintenant, l’ordre et la mantisse sont représentés comme 
des fractions à virgule fixe, ce sera justement la représentation du 
nombre x en virgule flottante. 

Notons que la représentation de l’ordre est toujours exacte du 
fait que l’ordre est un nombre entier. Quant à la mantisse, elle sera 
représentée exactement seulement pour celles des fractions p-naires 
qui comptent pas plus de t — r rangs de poids supérieur non nuls. 
C’est justement ces fractions x de l'intervalle approximatif 


— pr <z<pr 


qui peuvent être représentées exactement de la façon décrite. Le 
nombre zéro est généralement représenté par un nombre à mantisse 
nulle. L'ordre de ce nombre n’est pas défini et sa grandeur peut 
varier d'un ordinateur à l’autre. 

Dans les calculatrices modernes on emploie les deux modes de 
représentation des nombres. Leur choix est déterminé par le type 
des problèmes à résoudre. Les ordinateurs à large destination tra- 
vaillent souvent d’après les deux formes de représentation. 

L’exécution des opérations est plus rapide dans le cas des nom- 
bres en virgule fixe que dans celui des nombres en virgule flottante. 
[l en est ainsi du fait que cette dernière procédure impose, au fond. 
l'exécution de toutes les opérations sur les couples des nombres en 
virgule fixe. [Il en résulte que l'utilisation de la représentation en 
virgule fixe pour résoudre des problèmes dont les données numériques 
comportent une virgule de position plus ou moins déterminée. per- 
met d'enregistrer un gain de temps perceptible. Parmi ces problèmes 
il y a, par exemple, les calculs financiers, les problèmes de compta- 
bilité quantitative, de nombreux problèmes de gestion, etc. 

Dans la résolution des problèmes scientifiques et techniques. la 
représentation en virgule flottante est plus commode. Ceci est dû 
au fait que là, généralement, les données numériques couvrent une 
plage très large. 

Dans le cas général, la virgule fixe permet de représenter sur un 
ordinateur les nombres avec la même précision absolue, et la virgule 
flottante, avec la même précision relative. Pourtant, notons que 
pour le même nombre d'éléments de base prévus pour la représen- 
tation d’un nombre, la virgule fixe permet d’obtenir pour certains 
nombres une précision relative plus grande que la virgule flottante. 
C'est le cas surtout des nombres proches des nombres maximaux 
en module. 

Le travail habile en virgule fixe permet parfois d'obtenir une 
plus grande vitesse et une meilleure précision de résolution d’un 
problème, que l'utilisation de la virgule flottante. Un effet encore 
plus grand peut s’obtenir en combinant judicieusement les calculs 
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en virgule fixe avec ceux en virgule flottante. Cependant, nous ne 
nous attarderons pas sur les détails de ces questions. 

Toutes les recherches ultérieures ne concerneront que les calculs 
en virgule flottante. Ceci est défini par le but que nous nous sommes 
proposés d’étudier les méthodes de calcul numérique de l’algèbre 
linéaire. L’algèbre linéaire est appliquée surtout pour résoudre des 
problèmes scientifiques et techniques; or, le plus souvent la solution 
de ces problèmes est donnée par les ordinateurs en virgule flottante. 


EXERCICES 


1. Donner des exemples des dispositifs physiques possédant p états stables. 

2. Construire divers modèles de dispositifs arithmétiques pour la réa- 
lisation des opérations d’addition, de soustraction et de multiplication à par- 
tir des éléments de base concrets quelconques. 

3. Utiliser les dispositifs arithmétiques construits dans l’exercice précé- 
dent pour analyser la différence entre l’exécution des opérations en régimes de 
la virgule fixe et de la virgule flottante. 

4. Proposer un mode de représentation des nombres sur un ordinateur qui 
différerait de celui de la virgule fixe et de la virgule flottante. Comment se 
réalisent alors les opérations sur les nombres? 

5. Est-ce que les régimes en virgule fixe et en virgule flottante entraînent 


l'ambiguïté de la représentation des nombres quelconques sur des ordinateurs 
concrets ? 


$ 4. Traits particuliers de la représentation 
des nombres sur ordinateur 


Comme nous l’avons déjà noté, les ordinateurs modernes n'’opè- 
rent qu'avec des fractions p-naires finies. Le résultat d’une opération 
arithmétique sur des fractions finies n'est pas toujours une fraction 
finie, loin de là. À titre d'exemple peuvent servir les opérations de 
division, de l'extraction de la racine, etc. Mais même si le résultat 
est une fraction finie, le plus souvent il est impossible de la repré- 
senter exactement sous une forme propre à l'ordinateur. Ceci se 
rapporte aussi bien à l'écriture en virgule fixe qu'en virgule flot- 
tante; à titre d'exemple on peut prendre la multiplication des 
nombres. De cette façon, la mémorisation de presque tous les nom- 
bres par un ordinateur apporte dans les nombres eux-mêmes une 
certaine erreur due à leur arrondissement. Il est clair que 

Les erreurs d'arrondi sont inévitables dans tout calculateur moderne. 
La grandeur de cette erreur dépend de la réalisation concrète de l'arron- 
dissement et de la forme adoptée de la représentation des nombres. 

Certes, il existe de différents astuces techniques qui permettent 
d'agir sur les erreurs d’arrondi. Cependant, à leur grandeur sont 
associées des contraintes de principe. Et si on ne dépasse pas le 
cadre des idées implantées de la représentation des nombres sur 
ordinateur, il est impossible de surmonter ces contraintes, quels 
que soient les moyen: techniques. 


2% 
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Désignons par fi (rx) une fraction finie qui s'obtient après l’ar- 
rondissement d'un nombre z à virgule fixe jusqu’au rang £ après 
la virgule. On a 


fi(z) = zx +", (4.1) 


où v est l’erreur d’arrondi. Quel que soit le mode d'arrondissement, 
il est impossible d’après (2.1) d'obtenir sur la classe des nombres 
réels une estimation meilleure que 


I< + pt. (4.2) 


Désignons ensuite par fl (x) une fraction finie qui s'obtient après 
l'arrondissement de la mantisse du nombre x à virgule flottante 
jusqu’au rang t après la virgule. Maintenant, il est plus commode 
d’écrire l'identité analogue à (4.1) sous la forme 


fl (x) = x (1 + &). (4.3) 


La quantité e n’est pas une erreur d’arrondi du nombre x, bien qu'elle 
lui soit liée. Si fl (x) 0, les estimations (3.2) sont vraies pour la 
mantisse, et son erreur d’arrondi ne peut avoir de meilleure estima- 
tion que (4.2). Il en résulte que sur la classe des nombres réels il 
est impossible d'obtenir pour € une estimation meilleure que 


el prit. (4.4) 


Pour des t grands, le second membre de l'inégalité peut être rendu 
aussi petit que l’on veut. Pourtant, il importe de souligner que 

Pour un certain ensemble des nombres on aura sur tout ordinateur 

— —1 indépendamment du nombre de rangs affectés à la représen- 
tation de la mantisse. 

En effet, quel que soit le nombre d’éléments de base affectés à 
la représentation de l’ordre des nombres, leur nombre sera toujours 
fini. Supposons qu'on affecte r éléments à un ordre sans signe. Sup- 
posons encore, pour fixer les idées, que dans le système de numé- 
ration retenu, les nombres de base sont 0, 1, ..., p — 1. Alors, sur 
r éléments on peut représenter les nombres entiers ne dépassant 
pas en module p' — 1. Par conséquent, le nombre positif minimal 
qu'on peut représenter en virgule flottante sur un ordinateur est 
égal à 


&©= pP”. 
Ainsi, formellement, en observant la relation (4.4), il est im- 


possible à l’avance de représenter sur ordinateur en virgule flottante 
presque tous les nombres z non nuls de l'intervalle 


—0 LT <LO. (4.5) 
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Ces nombres peuvent apparaître au cours des calculs. Ils apparais- 
sent, par exemple, après la multiplication de deux nombres quel- 
conques zx, y vérifiant les relations 


OL T, y Lo! /:. 


Par ailleurs, les nombres zx, y n’appartiennent pas eux-mêmes à 
l'intervalle (4.5). 

Les nombres de (4.5) doivent être remplacés par certains nombres 
susceptibles d’être représentés sur ordinateur. La situation ne pré- 
sente, au fond, qu’une seule issue. Puisque « est un nombre « petit », 
sur l’ordinateur tous les nombres zx de l’intervalle (4.5) sont remplacés 
par des zéros. C’est pour ces nombres que nous obtenons £ = —1. 
Iln’y a que le zéro qui fait exception et pour lequel on devra admettre 
eg — 0. Ainsi, sur la classe des nombres réels on ne peut obtenir que 
les estimations de la forme: 


e<+ p#*t, sifl(r) #0, 


| (4.6) 
e=—1, sifl(z)=0, mais rz#0. 


Malgré la « petitesse » de l'intervalle (4.5), les nombres de ce 
type figurent bien plus souvent dans les calculs qu’il peut le sem- 
bler à première vue. Comme nous allons l’établir, c’est précisément 
à de tels calculs que conduisent de nombreuses méthodes numériques 
de l'algèbre linéaire. Leur réalisation oblige de surmonter de nom- 
breuses difficultés du fait que les nombres (4.5) ne peuvent pas être 
représentés sur ordinateur avec la précision relative acceptable. 

Pour les calculatrices modernes, la quantité p”‘ s'échelonne or- 
dinairement de 10-19 à 10-%, la quantité ©, de 10-!# à 10-“0. En 
général, pt et w ne sont pas liées entre elles. Pourtant, tous les 
ordinateurs, sauf l'ordinateur à longueur variable de la mantisse, 
observent la relation 


© << pist, (4.7) 


Sur les ordinateurs à virgule fixe, on admet généralement les 
nombres ne dépassant pas l'unité en module, sur les ordinateurs à 
virgule flottante, ne dépassant pas w”!. Si le calcul fait apparaître 
des nombres qui dépassent ces limites, alors dans la plupart des 
cas le processus s’arrête. Il est d'usage de donner à ce phénomène 
le nom de débordement. En réalisant des algorithmes sur des ordina- 
teurs il faut en tenir, certes, compte. 

Les particularités signalées de la représentation des nombres ne 
peuvent pas être éliminées par des moyens techniques quelconques. 
On peut concevoir un opérateur avec un nombre w aussi petit que 
l'on veut. Mais il sera quand même distinct de zéro. On peut cons- 
truire un ordinateur dans lequel l'opération d'arrondissement se 
fera de la meilleure façon, mais dans ces conditions, les estimations 
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(4.2), (4.6) ne seront pas quand même améliorées. Au fond, le dé- 
bordement est aussi impossible à éviter. 

Pour ne pas nous attarder aux détails superflus liés à la particularité 
de la représentation des nombres sur des ordinateurs concrets, nous 
allons supposer dans tout ce qui suit que les estimations (4.2), (4.6) 
sont observées. Nous dirons correcte pour l'opération d’arrondisse- 
ment autorisant ces estimations. 

Un arrondissement correct présente de grands avantages. Mais 
l'arrondissement qu’on réalise sur de nombreux ordinateurs moder- 
nes, si ce n'est sur la plupart d’entre eux, est incorrect pour telle 
ou telle raison. A droite des estimations de la forme (4.2), (4.4) 
on voit apparaître un facteur supplémentaire & >> 1. Si par rapport 
aux erreurs d’arrondi il faut connaître seulement leurs majorations, 
dans la représentation des nombres sur ordinateur une telle réalisa- 
tion de l'arrondissement est équivalente à la perte de log, «& rangs, 
puisque 

a = p'°p œ 

En fait, les conséquences d’un arrondissement incorrect sont 
bien plus graves que tout simplement la perte d’un certain nombre 
de rangs. | 


EXERCICES 


1. Pourquoi les nombres de l'intervalle (—w, w) sont remplacés par le 
zéro et non pas par un autre nombre ? 

2. Peut-on sur un ordinateur à virgule flottante calculer le nombre w-!? 

3. Construire le graphique de la quantité v de (4.1) comme fonction de z. 

4. Construire le graphique de la quantité e de (4.3) comme fonction de z. 

5. Quelle est la précision de l’estimation par les seconds membres des iné- 
galités (4.2), (4.4) de leurs premiers membres? 

Pr la nécessité de l’observation par un ordinateur de la rela- 
tion (4.7). 


$ 9. Opérations arithmétiques 


Dans la description mathématique de la majorité des algorithmes 
de calcul on admet une certaine ambiguïté résultant de la commu- 
tativité, de l’associativité, de la distributivité des opérations arith- 
métiques. La réalisation sur des ordinateurs des écritures d’algo- 
rithmes différentes produit des effets différents. Il en est ainsi du 
fait que les propriétés des opérations arithmétiques réalisées sur 
des ordinateurs diffèrent de celles des opérations exactes. 

Les mêmes opérations arithmétiques exécutées sur des ordina- 
teurs différents peuvent se distinguer dans les détails d'une façon 
très sensible. Pourtant, ces différences ne sont pas d’un grand intérêt 
du fait que seul le résultat de l’opération a une portée mathématique. 
Pour ne pas nous attarder aux détails liés à des ordinateurs concrets, 
nous considérons dans ce qui suit que. 
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Le résultat de l'exécution sur un ordinateur d’une opération arithmé- 
tique quelconque coïncide’ avec le résultat correctement arrondi de l'exé- 
cution exacte de cette même opération; l'exécution d’une opération de 
résultat nul est exacte. 

L'une des opérations les plus simples est l’addition (la soustrac- 
tion) des nombres en virgule fixe. Supposons qu’on ajoute (retranche) 
les nombres dans un système de numération p-naire et l'unité du 
dernier rang représenté est égale à p-*. S'il n’y a pas débordement, 
le résultat sera une fraction p-naire finie comptant pas plus de t 
rangs après la virgule; c’est pourquoi sa représentation sur l'ordi- 
nateur peut être précise. Il s'ensuit que l’addition (la soustraction) 
des nombres en virgule fixe peut être réalisée sans erreur d’arrondi. 
Dans ce qui suit, nous admettrons que 


fi(+y)=zt+y (5.1) 


pour tous les nombres zx, y représentés sur l'ordinateur, si, dans ces 
conditions, l'opération est réalisable. 

Toutes les autres opérations arithmétiques sur les nombres en 
virgule fixe les plus usitées ne jouissent pas de cette propriété. Il 
en est ainsi parce que la réalisation d’autres opérations fait apparaî. 
tre des nombres possédant plus de t rangs non nuls après la virgule, 
Dans ce cas les erreurs d’arrondi sont inévitables. C’est pourquoi- 
pour tous les nombres zx, y représentés sur l'ordinateur, 


fi {z : y) =: 2 y+wv, (5.2) 


<< p*. (5.3) 


On suppose, certes, que les opérations elles-mêmes sont réalisables. 

L'exécution des opérations arithmétiques sur les nombres en 
virgule flottante fait apparaître des erreurs d’arrondi déjà presque 
dans tous les cas. Supposons que les nombres sont donnés dans un 
système de numération p-naire et qu’à la représentation des mantis- 
ses on affecte £{ rangs. Alors, si l’opération est réalisable, on aura 


Æ m = 
fl (- X ) = (- X ) (1 +e), (5.4) 


C2 
L 1 


où, d'après (4.6), 
É —. | = 
[El << P o S1 ne X )#0. 


Æ + 
Ee—=—1, si a (ex v)=0. mais ŒDEC 
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Les formules (5.5) ne se prêtent pas à une amélioration importante 
sur l’ensemble de tous les nombres représentés sur l’ordinateur. Mais 
dans certains cas présentant un intérêt pratique, on peut assurer que 
eg = —1. On vérifie sans peine, qu’il en sera ainsi, par exemple, si 
on additionne les nombres de mêmes signes ou si on retranche des 
nombres de signes différents, si, dans un produit, l’un des multi- 
plicateurs n'est pas inférieur en module à l’unité ou si le dénomina- 
teur d’une fraction n’est pas supérieur en module à l'unité. 

Bien que le cas de l’addition (de la soustraction) fasse apparaître 
l'erreur d’arrondi, cette dernière possède une particularité qui 
mérite l’attention. Soient 


z=aptr, y=— a>pP?, 


où a;, a sont les mantisses; b,, b,, les ordres des nombres zx, y. 
Pour fixer les idées, admettons que b, >b., et écrivons x + y sous 
la forme suivante: 


z + y= (a + a) p°2-bipbi. 


Les mantisses a,, a, satisfont aux conditions (3.2). C'est pourquoi 
le nombre 


2= Q + ap" 


compte pas plus de £ + b, — b, rangs non nuls après la virgule et pas 
plus d’un rang non nul devant la virgule. Ce rang n'apparaît que 
dans le cas où | z 121. Par conséquent, les mantisses des nombres 
x + y possèdent pas plus de £ + b, — b, + 1 rangs non nuls après 
la virgule. 

En particulier, lors de l’addition des nombres de même ordre 
de signes différents (lors de la soustraction des nombres de même 
ordre de mêmes signes) la mantisse du résultat compte pas plus de 
t rangs non nuls après la virgule. Il est naturel de considérer que dans 
ce cas il ne doit pas y avoir d’erreur d’arrondi. Quant au cas général, 

L'opération d'addition (de soustraction) des nombres en virgule 
flottante possède une erreur d'arrondi contenant un nombre fini de 
rangs non nuls. Le nombre de ces rangs est déterminé par la grandeur 
des nombres participant à l'opération et ne dépend pas du nombre de 
rangs affecté à la représentation de la mantisse. 

Sous ce rapport, l’opération d’addition (de soustraction) se dis- 
tingue de toutes les autres. Ainsi, dans les opérations de division, 
d'extraction de la racine, etc., l’erreur d’arrondi compte générale- 
ment un nombre fini de rangs. Dans l’opération de multiplication, 
bien que l'erreur d’arrondi compte un nombre fini de rangs, ce 
nombre est pourtant de l’ordre de t. 

Dans les processus de calcul, la particularité signalée de l'erreur 
d’arrondi de l’addition (de la soustraction) des nombres en virgule 
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flottante influe fortement sur la distribution générale des erreurs 
d’arrondi. 

La réalisation de certains algorithmes rend nécessaire l’exécu- 
tion de quelques calculs intermédiaires avec une précision bien plus 
grande que celle du système de numération adopté. Sur la plupart 
des machines modernes, les calculs de cette sorte sont organisés de 
la façon suivante. D'abord, du point de vue technique il est possible 
d'obtenir le résultat des opérations arithmétiques fondamentales 
sur des nombres à { rangs non pas avec {, mais avec 2t rangs. Dans 
ces conditions, l'erreur d’arrondi compromet ordinairement seule- 
ment les derniers de ces 2t rangs. Puis, il est possible de réaliser 
l'accès à l’aide de programmes aux rangs { du résultat de poids supé- 
rieur aussi bien que de poids inférieur. En mettant à profit cette 
possibilité, on peut, en manipulant des programmes, réaliser tout 
calcul avec une précision aussi grande que l’on veut. 

Malgré l'importance exceptionnelle des opérations avec un 
nombre double de rangs, les ordinateurs ne sont pas tous à admettre 
leur réalisation. Ceci doit être considéré comme une négligence de 
conception sérieuse. Les systèmes de commande et les organes de 
calcul des ordinateurs doivent être tels qu’ils soient capables d’as- 
surer avec une efficacité maximale l'exécution des opérations avec 
un nombre double de rangs. 

En algèbre linéaire le calcul rapide et exact au maximum des 
expressions de la forme 


n 

a+ ÿ œibi 

—_. + (5.6) 
où tous les nombres écrits sont à t rangs, revêt une importance pri- 
mordiale. Si les calculs intermédiaires se font avec un nombre double 
de rangs, ces expressions se calculent, en règle générale, avec la 
même précision relative que le résultat d’une expression arithmé- 
tique. À un tel régime de calcul nous donnerons le nom d'accumulation 
et nous le désignerons respectivement par les symboles fi,, fl.. 
Du point de vue technique, sa réalisation ne présente pas de diffi- 
cultés de principe. Un système bien pensé de commandes d’un ordi- 
nateur relatives au calcul en double précision rend le temps de calcul 
des expressions de la forme (5.6) presque égal à celui du calcul en 
simple précision. Admettons dans ce qui suit que 


n ù n 
a+ N, af a+ Y œifi 
fie ss — = — 5 — +, 


n n À 
a+ Y air a+ x, ab: 


1 | — 5 — me sul A+); 
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dans ces conditions comme dans d’autres cas analogues, 
EL = : 
[VI< = P [El <= p # ou bien = —1. 


Dans ce qui suit, les symboles fl, fi et fl,, fi, seront employés assez 
souvent. Cependant, on ne leur attribue aucun sens mathématique 
rigoureux. Dans le cas général, ils n’indiquent que le régime de 
calculs appliqué. Le processus de calcul et ses particularités sont dé- 
crits exactement par l'indication de toutes les erreurs apparues et 
de leurs estimations. 

Pour conclure, attirons l'attention du lecteur sur la circonstance 
suivante. Aussi petites que soient les erreurs d’arrondi qui se pré- 
sentent lors de l'exécution des opérations arithmétiques, leur appa- 
rition modifie sensiblement les propriétés mathématiques des opé- 
rations elles-mêmes. Les opérations précises de multiplication et 
d’addition sont commutatives, associatives et liées entre elles par le 
principe de distributivité. Sur les ordinateurs, les opérations de 
multiplication et d’addition ne présentent déjà pas ces propriétés. 

La commutativité des opérations sur un ordinateur n'est. assurée 
que lorsque l'erreur d’arrondi est bien définie par le résultat de 
l'exécution exacte de l'opération. En particulier, l’opération d'ad- 
dition des nombres en virgule fixe est commutative du fait que 
dans ce cas l’erreur d’arrondi est en général inexistante. C’est ce 
qui fait aussi que cette opération est associative. Dans le cas d’une 
exécution exacte, toute opération commutative peut l'être aussi 
lorsqu'on la réalise sur un ordinateur en présence d'un arrondisse- 
ment correct. Comme nous l’avons déjà noté, un tel arrondissement 
est loin d’avoir lieu sur toutes les calculatrices modernes. 

Pour ce qui est des propriétés d’associativité et de distributivité, 
il n'existe pas actuellement d'ordinateurs susceptibles de les réa- 
liser. Des relations correspondantes ne sont propres seulement qu'aux 
certaines collections des nombres. 


EXERCICES 


1. Existe-t-il un mode d’arrondissement susceptible do rendre associative 
l'opération de multiplication sur un ordinateur ? 

2. Existe-t-il un mode d’arrondissement susceptible de rendre associative 
l'opération de multiplication sur une calculatrice à virgule flottante ? 

3. Le choix approprié d’un mode d'arrondissement peut-il assurer l’obser- 
vation de la proprièté de distributivité sur un ordinateur ? 

4. Donner des exemples de paires possibles d'opérations algébriques sur 
ordinateur qui observent les principes de commutativité, d'associativité et de 
distributivité. 

5. Pour quels nombres les opérations de multiplication et d’addition sont 
traitées sur ordinateur à virgule flottante sans erreurs d’arrondi ? 

6. Construire divers modèles d’organes de calcul pour les opérations d’ad- 
dition, de soustraction et de multiplication exécutées avec un arrondissement 
-correct du résultat. 
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7. Etablir un système de commandes d’un ordinateur commode pour l’exé- 
cution des calculs à nombre double de rangs. Est-il bien simple de calculer les 
expressions de la forme (5.6)? 

8. Discuter du fonctionnement d’un organe de calcul lors du traitement des 
opérations sur un ordinateur concret. Comment cet ordinateur effectue l’opéra- 
tion d'arrondissement ? 


$ 6. Ordre d’exécution des opérations 


La description mathématique du processus de résolution d’un 
problème scientifique ou technique quelconque se ramène finale- 
ment à la description de certaines opérations arithmétiques liées 
entre elles par des contraintes logiques. Les calculatrices modernes 
sont capables d’exécuter seulement des opérations assez simples. 
C'est pourquoi, pour donner l'algorithme de calcul d’une expres- 
sion arithmétique, il faut déterminer l’ordre d'exécution des opé- 
rations qui la constituent, c’est-à-dire disposer les parenthèses de 
la façon nécessaire. 

Du point de vue de l’exécution exacte des opérations, ordinaire- 
ment, la disposition des parenthèses n’est pas univoque. Ceci résulte 
surtout de la manifestation des propriétés d’associativité et de 
distributivité des opérations. Or, pour des opérations exécutées sur 
des calculatrices, ces propriétés n’ont pas lieu. Par conséquent, la 
différence dans la disposition des parenthèses d’une même expres- 
sion arithmétique donne des résultats différents. 

Ainsi, tout problème posé sur un ordinateur détermine en réalité 
tout un ensemble des algorithmes de calcul qui se distinguent entre 
eux par l’ordre d'exécution des opérations arithmétiques. Malgré l’équi- 
valence mathématique dans le sens précis de toutes ces modifica- 
tions, la différence entre les résultats de calcul peut être énorme, 
surtout du point de vue de la stabilité numérique. 

Considérons un exemple bien simple, mais très suggestif. Suppo- 

n 


sons qu’on calcule la somme z — Y, &;, où tous les &; sont des 


{1 
nombres de même signe. L'opération d’addition est associative et 
commutative. Il s'ensuit que le résultat exact ne dépend pas de 
l'ordre dans lequel est réalisée la sommation. 

Calculons maintenant cette somme sur une calculatrice à virgule 
flottante. Ajoutons au premier terme le deuxième, à la somme ainsi 
obtenue ajoutons le troisième terme, etc. D'après (5.4) 


(z)=(... ((ci + a) (1 +e1) + as) (+8) +... +) (1+er) = 
n—1 
= (a+) [] (++ 


n—1 


n—1 
+as [] A+e)+...+an [ (i+e). (6.1) 


12 
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Les nombres «; étant de même signe, €; 1; donc 
RS 
[el <= pt 


pour tout i. Récrivons maintenant la formule (6.1) sous la forme: 


fl à S a)= (+E;). (6.2): 


Sur les ordinateurs modernes, la quantité p-t est très petite. Par 
conséquent, à O (p*!) près, 


ES pt, 
(6.3) 
EEE) pti, 2<i<n. 


Voici ce que signifient les formules obtenues. Comme il résulte 
de (6.2), la sommation des nombres sur ordinateur à virgule flot- 
tante est équivalente à la sommation exacte des nombres à pertur- 
bation relative E, du terme «;. Les perturbations relatives sont diffé- 
rentes. D'après (6.3) elles sont maximales pour les premiers termes 
et minimales pour les derniers. L'erreur absolue À de la somme cal- 
culée s’écrit 


A = pa @;E:. 
ii 


Les estimations de E; ne dépendant pas de «;, dans le cas général, 
l'erreur A sera la plus petite si les nombres seront sommés à partir 
de la valeur minimale dans l’ordre croissant de leurs valeurs abso- 
lues. 

On comprend sans peine la cause de la grande différence entre 
les termes du point de vue des perturbations qu’on y apporte. For- 
mellement, chaque terme ne participe qu’une seule fois au processus 
de sommation. Cependant, chaque terme participe autant de fois 
dans la formation de l’erreur que la sommation porte sur des sommes 
partielles dépendantes de ce terme. 

Pour éliminer cette différence on procède de la façon suivante. 
La sommation se fait par étapes en s’efforçant d’apporter à chaque 
étape dans tous les termes des perturbations relatives de même ordre. 

A la première étape, divisons les termes «&; en paires et addi- 
tionnons chacune de ces paires. Il est manifeste que la perturbation 
relative apportée dans chaque terme a; des paires sera de même ordre. 
Si nest pair, tout &,; fait partie d’une paire; si » est impair, l’un 
des termes qui n’est pas entré dans l’une des paires ne participe pas 
à la première étape de sommation. 


$ 6] ORDRE D'EXÉCUTION DES OPÉRATIONS 29 
2 ——_—_—_—…—…—…—…—…—…—…—…—…—…—…—…—…—…—…"…"…"…"…" "…" —…—…—…"…"…" …—…"…"…—…—…—…" …—…" _…" —_—_…—_—…—…—…———— 


Examinons l’ensemble des nombres composé des sommes obte- 
nues à la première étape et du nombre qui n’a pas été sommé dans 
le cas de nr impair. Reprenons avec cet ensemble la procédure de la 
première étape appliquée aux termes «&;. En reprenant ensuite d'une 
façon analogue le processus, nous aboutirons de nouveau à la formu- 
le (6.2), mais maintenant pour tout E,; on aura l'estimation 


Li] < CHE: n) pt#1. 


Ainsi, ce n’est que par le changement de l’ordre de sommation 
qu'on peut diminuer l'estimation de l'erreur environ de n7/log. nr 
fois. 

Comme nous l'avons déjà dit, tout problème posé à un ordina- 
teur détermine l’ensemble des algorithmes de calcul qui se distin- 
guent l’un de l’autre par l’ordre d'exécution des opérations arithmé- 
tiques. Cela signifie qu'à la résolution exacte du problème corres- 
pond un ensemble des résolutions approchées que de tels logarithmes 
permettent d'obtenir. Parmi les éléments de cet ensemble, il peut 
y avoir aussi bien de bien proches à la solution exacte, que de très 
éloignés d'une telle solution. La dispersion des solutions approchées 
traduit le degré d'’instabilité du problème à l’ordre d'exécution des 
opérations. L’exemple considéré de la sommation des nombres 
montre que cette dispersion peut être importante, même dans les 
problèmes les plus simples. Dans des cas plus compliqués, il se peut 
que pour certains ordres d'exécution des opérations la solution du 
problème sur un ordinateur puisse mème être impossible. 

Quel que soit l’ensemble des solutions approchées, parmi ses 
éléments se trouve à l’avance le plus proche de la solution exacte. 
Trouver cet élément ou celui qui n’en est pas très éloigné est une 
tâche ardue, surtout lorsque les algorithmes de calcul sont compli- 
qués. I] ne faut pas oublier pour autant, qu'en principe il est pos- 
sible d'optimiser les algorithmes au sens de la précision suivant 
l’ordre d'exécution des opérations, surtout dans le cas des problèmes 
compliqués, dans lesquels l'influence des erreurs d'arrondi est la 
plus forte. 


EXERCICES 


4. Un ensemble des solutions approchées d’un problème déterminé par 
l'ordre d’exécution des opérations peut-il contenir un nombre infiniment grand 
de différents éléments ? 

2. L'ensemble des solutions approchées d’un problème déterminé par l’or- 
dre d’exécution des opérations dépend-il du mode retenu d’arrondissement des 
nombres ? 

3. L’algorithme de sommation suivant les paires des nombres en virgule 
flottante décrit ci-dessus est-il optimal en précision ? 

4. Examiner les différents modes de sommation des éléments d’une matrice 
rectangulaire. Comparer entre elles les estimations obtenues des erreurs. 

5. Examiner les divers modes de calcul du produit de nombreux nombres 
en virgule fixe. Comparer entre elles les estimations obtenues des erreurs. 
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$ 7. Enregistrement en langages de machine 


Pour résoudre des problèmes scientifiques et techniques sur les 
calculatrices modernes on utilise largement des langages algorithmi- 
ques du type Algol, Fortran, etc. Il existe de nombreuses publica- 
tions des algorithmes en ces langages, on crée des bibliothèques, on 
organise des échanges d’information sur l’équipement mathématique 
des calculatrices. 

Le trait distinctif de ces langages est leur indépendance de la ma- 
chine, c'est-à-dire l'absence des références aux particularités concrè- 
tes des calculatrices. En particulier, ils ne comportent aucune réfé- 
rence sur la capacité de digit de la représentation des nombres, 
n’indiquent pas la limite de débordement et la limitation en pré- 
cision au voisinage du zéro de machine, ne décrivent pas le mode 
d’arrondissement des nombres. 

Au niveau des langages algorithmiques, la description des diffé- 
rences entre les calculatrices n’est possible qu’à l’aide des paramètres 
d’entrée du problème. Or, ces paramètres ne sont liés à la calculatrice 
que par le sens du contenu. C’est pourquoi, quel que soit le cas, la 
description des problèmes dans les langages du type Algol et Fortran 
ne dépend pas des particularités concrètes d’une calculatrice. 

La perception par les machines à calculer d’un langage univer- 
sel n’est pas directe. Avant de s'attaquer à la résolution d’un problè- 
me, il convient de traduire son énoncé du langage algorithmique en 
langage du système de commandes de la calculatrice. Par consé- 
quent, malgré l'indépendance de la machine de la description ini- 
tiale du problème, en définitive, sa résolution est influencée par 
toutes les particularités de l’arithmétique de machine de la calcu- 
latrice choisie et, notamment, par les particularités de la repré- 
sentation des nombres. 

Ainsi, toute description d'un problème indépendante de la machine 
en un langage algorithmique engendre en réalité un ensemble des des- 
criptions dépendantes de la machine et, par suite, un ensemble des 
solutions approchées de ce même problème, déterminé par l’ensemble 
des calculatrices concrètes. La dispersion de l’ensemble des solutions 
approchées caractérise la stabilité de la description donnée en langage 
algorithmique par rapport aux particularités spéciales de la cal- 
culatrice. 

Nous avons dit précédemment qu’en jouant sur le choix de l’ordre 
d'exécution des opérations on peut modifier les propriétés de calcul 
d’un algorithme, de sorte que l'influence des erreurs d’arrondi soit 
minimale. Ceci se rapporte en pleine mesure au choix de la forme 
d'écriture du problème en langage algorithmique. Pourtant, dans 
ce sens on peut aller un peu plus loin. En remplaçant dans l’algo- 
rithme des formules isolées par des formules équivalentes, on peut 
améliorer également sa stabilité aux particularités des calculatrices 
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concrètes. Nous allons examiner seulement les propriétés telles que 
la limite de débordement et la limitation de la précision au voisinage 
du zéro de la machine, puisque leur manifestation est inévitable dans 
chaque ordinateur. 

Examinons quelques exemples. Supposons qu'il fasse calculer, 
pour le fonctionnement en virgule flottante, la norme euclidienne 
du vecteur réel x — (x,, x2,. . ., Zn). Par définition, 


ie ÿ È T3; (7.1) 


Désignons par w le nombre positif minimal representable sur la 


calculatrice et supposons que |zx; | << w1* pour tout i. Puisque 
dans ce cas 


fl (x5) = 0, 
Ja norme euclidienne du vecteur x est nulle elle aussi. 

Il est évident que pour de petites valeurs de coordonnées du 
vecteur x, l'erreur relative du calcul de sa norme euclidienne d'après 
la formule (7.1) sera très grande. Il est impossible de justifier ce 
phénomène, du fait que, dans ce cas, la norme du vecteur peut même 
dépasser w!/*, alors que les nombres d'ordre w!/*° ne sont exclusifs 
sur aucune calculatrice. 


Remplaçons maintenant la formule (7.1) en la recopiant sous la 
forme équivalente suivante: 


0, aæ=0, 
x Île = n (7.2) 
œ (la), a%0, 
où 
Œ—= Max FAR 
1<i<n 


Après avoir effectué pas à pas tous les calculs en tenant compte des 
erreurs, on trouve 


n=t1((#)") 
sn y)=S nt+n), 


u=fl(V:=Vz({+e), 
vu = fl (au) = au (1 + r) 
pour avoir finalement 


f1 (2 Île) = (1 +) (1 +) |/ 2} zà (1 + ei)? (1 + ei) (1 + mi). 


(7.3) 


(L(4t+e)) A+, 


32 PARTICULARITES DE L'ARITHMEÉTIQUE DE MACHINE [CH. I 


Soit, pour fixer les idées, &« = zx,. I] peut s'avérer que pour cer- 
tains ë, e; ou bien e; est égal à —1. Supposons qu’il en est ainsi pour 
i — 2,..., k. Par hypothèse sur & on peut ne pas calculer la quan- 
tité y,, mais la considérer égale à l'unité. Par conséquent, ej = e; = 
— 0. Mais, alors, 


ñ R 
D #(1+e}(4+e) (1+m)=2(1+m—X (Æ) )+ 
ti i=2 
k ñn 
+D ait D 25(1+e) (1+e5) (1 +m). 
i-2 1=hk+1 


Le fait que &; ou bien e; est égal à —1 pour i = 2, ..., k, signifie 
que l'inégalité (x;/x,)° << w est observée; donc 


k 
à (zi/2,)? <(k—1) ©. 
im? 


Tous les y; sont non négatifs. Comme nous l’avons noté, dans 
ce cas, indépendamment du mode de sommation, n; = —1. La 
quantité z est bornée inférieurement par l’unité et Vz peut se calcu- 
ler avec une précision relative élevée, c’est-à-dire e =£ —1. Pour 
la même raison, n = —1. Si les calculs se font en système de numé- 
ration p-naire avec arrondissement correct, alors & et n ne dépassent 
pas en module (1/2) p-‘*1. Il en sera de même pour ei, €; avec i > k. 
Pour les quantités n;, on a à l’avance 


— k E 
LS P ù 


Si la formule (7.3) est recopiée de la façon suivante 


fl (|zÎl) = î (x: (1+Ei)}. (7.4) 


alors, on peut obtenir pour E; des estimations assez simples. A des 
grandeurs de deuxième ordre de petitesse près on a 


(n—k+4) pti (k— 1) © nn. 

Pur ss De 
IEI<A pr", 2<Ki<k, 

ET? prt*1, ik. 


En prenant en considération que 2<p et en tenant compte de 
(4.7), on trouve 


— 6 : 
El << pt (7.5) 
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pour tout ëi, ces estimations ne dépendant pas du mode de somma- 
tion appliqué. 

Ainsi, le calcul d’après la formule (7.2) de la norme euclidienne 
d'un vecteur perturbé sur ordinateur à virgule flottante est équiva- 
lent au calcul exact de la norme euclidienne du vecteur perturbé, 
aux perturbations relatives E,; des coordonnées z;. w ne fait pas 
partie de l'estimation de E, ; c'est pourquoi la formule (7.2) déter- 
mine pour tous les ordinateurs concrets l'algorithme stable à la 
diminution de la précision au voisinage du zéro de la machine. La 


formule (7.1) ne jouit pas de cette propriété. (7.4), (7.5) entraînent 
que 


fl(ziz) =zlle(+E), 


où pour E on a encore l'estimation (7.5). Par conséquent, les calculs 
d'après la formule (7.2) assurent toujours une précision relative 
élevée du résultat. 

L'exemple considéré montre qu'il est possible de surmonter les 
difficultés liées à la diminution de la précision au voisinage du zéro 
de la machine. Cet exemple ne pose aucun problème sérieux relatif 
au débordement, bien que sous ce rapport le calcul d'après la for- 
mule (7.2) soit plus favorable. Quant au cas général, même les plus 
simples des algorithmes peuvent faire apparaître des difficultés 
dues au débordement. 

Supposons qu’on cherche le produit de 7 nombres x,, ze, . .., x,, 
parmi lesquels il y a de plus grands et de plus petits en module que 
l'unité. L'ordre de la multiplication de ces nombres n’est pas indiffé- 
rent. Si on aborde la multiplication par les nombres les plus petits 
en module, le produit partiel peut devenir inférieur à w, c'est-à-dire 
se ramener au zéro de la machine. Mais alors, le produit tout entier 
sera également nul, indépendamment du résultat de la multiplica- 
tion exacte. Par contre, si la multiplication part du nombre maximal, 
elle peut conduire rapidement au débordement, bien que le produit 
tout entier soit un nombre de la machine admissible. 

L'algorithme de machine indépendant qui suit est affranchi des 
défauts signalés, si seulement le produit de tous les nombres x;, x, ... 
..., Zn lui-même ne dépasse pas la limite supérieure de la repré- 
sentation des nombres sur la calculatrice. 

Supposons que les nombres donnés sont ordonnés suivant la non- 
décroissance de leurs modules, c’est-à-dire | x, [SI [<...< 
<|z, |. Prenons le nombre zx, et multiplions-le successivement 
PAT Zn, Tn-1 - - - tant que le produit partiel ne devient pour la 
première fois plus grand en module que l'unité. Ensuite, multiplions 
successivement le produit partiel obtenu par 2, x, . . . tant que le 
nouveau produit partiel ne devient pour la première fois plus petit 
en module que l'unité. Puis on reprend le processus. Lorsque parmi 
les facteurs non entrés dans le produit partiel resteront seulement 
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ceux qui sont non plus grands en module que l'unité ou non plus 
petits que l'unité, ils sont multipliés tous successivement par le 
produit partiel obtenu. Là le calcul du produit de r7 nombres s’achè- 
ve. Il est évident que 


fl([] x)= [l zi (1+ ei), (7.6) 
ii im! 


—t+1 


1 
[ul<-p 


Là encore on voit que la multiplication des nombres en virgule 
flottante est équivalente au calcul exact du produit des nombres 
perturbés aux perturbations relatives €; vérifiant (7.6). 

Ainsi, en modifiant dans les deux exemples la forme de l’écriture 
des algorithmes indépendante de la machine, on est parvenu à assurer 
la stabilité aux particularités considérées de la représentation des 
nombres sur des calculatrices. Ces exemples sont, certes, très simples ; 
pourtant, eux aussi se présentent souvent dans la pratique. Le calcul 
très exact de la norme euclidienne est nécessaire pour résoudre des 
systèmes d’équations à l’aide des transformations orthogonales ; 
le mode de calcul indiqué du produit des nombres s'emploie dans 
le cas de la recherche des déterminants par la méthode d'élimination, 
dans la résolution des systèmes d'équations à l’aide de certaines 
méthodes itératives, etc. L'examen et la discussion de ces exemples 
mettent en relief le fait suivant. 

Pour que les langages de machine deviennent une base de stockage 
et d'échange en information sur la structure, l’organisation, l'équipe- 
ment mathématique des calculatrices, il faut que tout algorithme, enregis- 
tré en l’un de ces langages, soit stable aux particularités des calculatrices 
concrètes. 

Certainement, la transformation des algorithmes augmente le 
temps de calcul. Mais dans l’ensemble, cette augmentation n'est 
pas si importante qu'elle peut le paraître à première vue. De plus, 
le niveau actuel du développement des techniques de calcul est 
déjà tel, qu’un certain ralentissement du processus accompagné 
de l’amélioration de sa fiabilité est non seulement justifié, mais 
encore possible. 

Les problèmes qui viennent d’être passés en revue se sont posés 
devant l’algèbre linéaire dans toute leur acuité. Ceci est dû au fait 
que les problèmes de l'algèbre linéaire sont précisément ceux qu’on 
cherche à résoudre à l’aide des ordinateurs et qui font partie de 
nombreux autres problèmes. C’est pourquoi l'élaboration des algo- 
rithmes de calcul stables relatifs à cette branche se présente actuel- 
lement dans toute son ampleur. Il convient de noter que l’algèbre 
linéaire a donné ces derniers temps des méthodes numériques très 
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efficaces et très délicates, atteignant la limite des possibilités dis- 
ponibles des ordinateurs. La description de ces méthodes en langages 
de machine est lourde de grandes difficultés. Mais sur ce chapitre 
nous nous étendrons plus loin. 


EXERCICES 


Discuter la stabilité des formes différentes d’écriture des formules par rap- 
port aux particularités des calculatrices : 
cul de cos x à l’aide de sin x pour de petits x. 
. Calcul de sin r à l’aide de tg x pour de grands x. 
. Calcul de la quantité =, où = = (2n)!!/(2n + 1)!!. 
. Calcul des quantités v du polynôme P (x), où v = x — P (x)/P' (x). 
. Calcul de la moyenne géométrique d’un grand nombre de nombres. 
. Calcul de la moyenne arithmétique d’un grand nombre de nombres de 
signes différents. 


CUS 


$ & Effet cumulatif de l’influence 
des erreurs d’arrondi 


A l'exception des cas très rares, l’erreur d'arrondi apparaît dans 
chaque opération arithmétique. C'est pourquoi, lors de la réalisa- 
tion sur ordinateur d’un algorithme de calcul complexe, son résul- 
tat définitif sera influencé par un très grand nombre d'erreurs d'ar- 
rondi des résultats des calculs intermédiaires. 

L'effet total de l'influence des erreurs est évalué généralement 
de la façon suivante. Désignons par À les données d’entrée du pro- 
blème; par B, le résultat de leur traitement d’après un certain 
algorithme précis, et écrivons que 


B = ® (4). 


Supposons que l’algorithme prévoit seulement] les opérations éta- 
blies par la liste des commandes de l'ordinateur. La réalisation de 
cet algorithme sur l’ordinateur le fera remplacer par un autre algo- 
rithme o,, en général très « proche »; ce remplacement est inévitable 
par suite de la différence entre l’arithmétique de machine et l’arithmé- 
tique exacte. Par conséquent, au lieu du résultat B, on aura le ré- 
sultat B,, où 


B, — œr (4). 


L'ensemble des données d’entrée et l'ensemble des solutions du 
problème permettent d'introduire les opérations d’addition et de 
soustraction des éléments, de multiplication d’un élément par un 
nombre, etc. Dans ce cas 


H =B,—-B 


est l’erreur de calcul de l’élément 2 sur la calculatrice. En intro- 
duisant convenablement une métrique sur l’ensemble des solutions, 


3% 
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on peut entreprendre l'estimation de la quantité H, c'est-à-dire 
obtenir l'estimation quantitative de l'erreur de la solution calculée 
du problème. Cette approche de l’estimation de l’influence cumulée 
des erreurs d’arrondi est nommée analyse directe des erreurs. 

Actuellement on recourt largement à une autre approche de 
l'estimation de l'influence des erreurs. Dans de nombreux problèmes 
la solution PB, calculée peut être considérée comme résultat du traite- 
ment de certaines données d'entrée perturbées À, d’après l’algo- 
rithme exact œ, c’est-à-dire 


Br = œ (4). (8.1) 


Dans ce cas, l'erreur de la solution calculée est caractérisée égale- 
ment par l'élément E = À, — À, qu'on appelle d’habitude pertur- 
bation équivalente. Si la formule (8.1) est mise sous la forme 


B, =q(4 + E), 


la solution calculée B, du problème peut être traitée comme une 
solution exacte de ce même problème, mais qui correspond aux don- 
nées d’entrée de perturbation E. C’est ce qui fait dire que la pertur- 
bation E est équivalente. L'estimation quantitative de l'influence 
des erreurs d’arrondi peut s’obtenir en introduisant convenablement 
une métrique sur l’ensemble des données d'entrée et en évaluant la 
quantité E. Une telle approche de l'estimation de l'influence des 
erreurs d’'arrondi a reçu le nom d'analyse inverse des erreurs. 

Au fond, nous avons déjà parlé de l'analyse inverse. En traitant 
de l'influence générale des erreurs d’arrondi sur l'addition et la 
multiplication des nombres, sur le calcul de la norme euclidienne 
d'un vecteur, nous avons réussi à montrer que, dans ces cas, le 
résultat des calculs réels peut être envisagé comme une application 
exacte des algorithmes correspondants aux données d'entrée pertur- 
bées. 

Il est rare que dans les problèmes pratiques la donnée des éléments 
d'entrée soit exacte, ordinairement ils sont fournis par des mesures 
ou des calculs préalables et contiennent presque toujours des erreurs 
définies. L’analyse inverse montre que, dans les calculs ultérieurs, 
l'influence des erreurs d'arrondi est équivalente à l'apport supplé- 
mentaire des erreurs dans les données d'entrée. La comparaison des 
erreurs initiales et de la perturbation équivalente de la solution 
d'un problème permet de comparer correctement la précision des 
données d'entrée avec la précision des calculs eux-mêmes. 

Même dans le cas d’une donnée mathématiquement exacte des 
éléments d'entrée, l'apparition des erreurs est presque inévitable 
du fait de l'arrondissement des nombres lors de leur introduction 
dans la calculatrice. Parmi les erreurs éventuelles, ce sont les erreurs 
minimales. 
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Comme le montre l'exposé qui suit, dans de nombreuses méthodes 
numériques de l'algèbre linéaire on observe un fait remarquable. 
Plus précisément, lorsque la résolution est correcte, la perturbation 
équivalente devient comparable avec les erreurs d'arrondi des données 
d'entrée. Toutefois, notons qu'une stabilité si élevée des méthodes 
ne se manifeste pas pour toute réalisation de la résolution, loin de là, 
et on ne voit pas d'emblée comment il faut organiser les calculs pour 
assurer la stabilité. Ceci a déjà été illustré par l'exemple bien simple 
du calcul d’une norme euclidienne d’un vecteur. 

Pour une grande part, en algèbre linéaire, l'analyse inverse des 
erreurs se fait d’après un schéma typique qu'on peut illustrer par 
l'exemple suivant. Soit À, la matrice rectangulaire transformée 
au cours de l’application de la méthode numérique. Supposons que 
le processus mathématique se ramène à construire la suite À, = À, 
Au, +. An, Où 


A;= LiA;_, i—= 1, 2, SAN, 
et que les matrices L; soient des matrices non dégénérées. Si L — 


= La ... L,, alors 
A» — LA. (8.2) 


Par conséquent, la matrice À + s’obtient par multiplication exacte 
de la matrice À par la matrice L. 

Dans le cas général, le processus de calcul conduit à la construc- 
tion de la suite suivante: 


Ài= Lis + bi = 1, 2, Re N. (8.3) 


Ici L, sont des matrices réellement obtenues au cours des calculs; 


U-, la matrice des erreurs de la multiplication de À, par Li. 
On a 


Av =LnAn + un. = Lnly -.. L (A+ Lipo+ 
+LPLau+...+LALs ... Luna). (8-4) 
Introduisons la notation £ = Ly ... L, et, de plus, posons 
Ev=Lipo+...+ LL... Lun; (8.5) 
alors 
Ay=£(A+Ey). (8.6) 


En comparant (8.2) et (8.6) on conclut que la matrice A x calculée 
peut être considérée comme obtenue par multiplication exacte de 
la matrice perturbée À + E, par la matrice L; de plus, la pertur- 
bation équivalente E; est définie par la formule explicite (8.5). 
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Si les matrices calculées Z; sont asymptotiquement voisines des 
matrices unitaires, alors 
N-1 
pu à 
- 
I En l1< 2 Ïl ter |] 


pour la 2-norme ou la norme euclidienne. 

Dans nos recherches nous utiliserons surtout l'analyse inverse 
des erreurs, et bien plus rarement l’analyse directe. Certains problè- 
mes auxiliaires pourront rendre nécessaire l’utilisation des deux 
méthodologies de l'estimation de l'influence cumulée des erreurs 
d’arrondi. 


EXERCICES 


Procéder à l’analyse directe et inverse des erreurs des exercices du para- 
graphe précédent. Peut-on dans tous ces exercices appliquer l’analyse inverse ? 


CHAPITRE II 


THÉORIE DES PERTURBATIONS 
DANS L’ALGÈBRE LINÉAIRE 


Avant de passer à l’étude des méthodes numériques en détail 
examinons l'influence exercée par une petite perturbation des don- 
nées d'entrée sur la résolution des problèmes algébriques. Notre 
étude aura justement pour objet les petites perturbations du fait 
que dans les processus algébriques c'est à de telles perturbations que 
se ramène essentiellement l’effet cumulé de l'influence des erreurs 
d’arrondi. C'est encore à ces petites perturbations que se ramènent 
de nombreuses méthodes numériques d'amélioration des solutions. 

Il y a très peu de choses à dire sur les perturbations produites par 
les erreurs d’arrondi. Non seulement elles ne sont pas des fonctions 
lisses des paramètres quelconques, maïs encore elles ne sont même 
pas continues. 

Dans la théorie des perturbations, les plus usitées sont les normes 
euclidienne et spectrale, ce qui s'explique par leur invariance aux 
transformations unitaires. 

Pour simplifier l'écriture, nous utiliserons assez souvent les 
signes d'égalité et d'inégalité approchées. Si elles associent des 
expressions quelconques, nous supposerons que les relations écrites 
sont asymptotiquement exactes aux termes indiqués dans le texte 
près. 


$ 9. Réduction aux matrices simples 


La résolution des systèmes d'équations algébriques linéaires et 
du problème des valeurs propres sont les tâches principales de l’algè- 
bre linéaire. Montrons que du point de vue de la théorie des perturba- 
tions leur description se ramène à l’étude des problèmes analogues 
aux matrices simples que sont les matrices diagonales et diagonales 
par blocs. 

Supposons qu’on cherche la décomposition singulière de la matri- 
ce A. Cela signifie qu’il faut déterminer les vecteurs non nuls x, y 
et les nombres non négatifs p, liés à la matrice À par les relations 


AZ = y, (9.1) 
A*y = px. 
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On sait [1] non seulement que les vecteurs x, y qui satisfont à (9.1) 
existent, mais encore qu'ils forment des systèmes orthonormés. 
Ces vecteurs s'appellent respectivement vecteurs singuliers droits ou 
gauches, les nombres p s’appellent nombres singuliers. 

Supposons que les vecteurs x forment les colonnes d’une matrice 
unitaire À ; les vecteurs y, les colonnes d’une matrice unitaire Ÿ : 
les nombres p, la matrice diagonale P. Admettons que les vecteurs 
z, y et les nombres p associés à (9.1) sont placés dans les colonnes des 
matrices de mêmes indices. Alors, les équations (9.1) sont équiva- 
lentes à deux égalités matricielles 

AX = YP, 
A*Y = XP 
ou à une décomposition matricielle 
A = YPX*. (9.2) 
Cette décomposition porte justement le nom de décomposition 
singulière de la matrice À. 


Considérons la matrice perturbée À + E et écrivons son système 
d'équations analogue à (9.1). Il vient 


(A+E)z=py, 
(A+E)" y = pZ. 


En substituant à À sa décomposition singulière (9.2) et en effectuant 
le remplacement 


X*z=u0, Y‘y=0, (9.3) 
on obtient que 
(P+Q)à= pr. 
(P+Q)"v= pu, 


où G = Y*EX. Dans le cas d’une matrice exacte À, on aurait le 
système 


Pu = pv, 
P*v = pu, 
si, certes, 
X*z=u, Y*y = 0. (9.4) 


Il est évident que les vecteurs exacts u, v sont des vecteurs uni- 
taires. C’est pourquoi on a une certaine raison de supposer que si la 
perturbation Q est suffisamment petite, les vecteurs u, v adoptés 
peuvent être voisins des vecteurs unitaires. Si on utilise la norme 
euclidienne des vecteurs, son invariance aux transformations uni- 
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taires fait que (9.3), (9.4) entraînent 


Iz—zile=fQlu—uls:, My—yllez=fv—- vs. 


La matrice P est diagonale. Par conséquent, en étudiant l’action 
exercée par la perturbation sur la décomposition singulière, on peut 
analyser seulement la perturbation de la matrice diagonale. Il 
importe de noter que pour les normes euclidienne et spectrale les 
grandeurs des perturbations des matrices À et P sont les mêmes, 
c'est-à-dire dans ce cas 


Elle, 2 =11Q le, 2. (9.5) 


La décomposition singulière d'une matrice permet d'explorer 
l'influence de la perturbation sur la résolution d’un système d’équa- 
tions linéaires. Supposons donnés les systèmes exact 


Az = b (9.6} 
et perturbé 
(A+E)z=b+e. (9.7) 


Le système (9.6) peut être compatible ou incompatible. Pourtant, 
on sait {1} que la recherche de sa solution ou de sa pseudo-solution 
normale se ramène à la recherche du vecteur z plus petit en longueur, 
minimisant la fonctionnelle du résidu 


Do(z) = 11 Az —0d ||. 


En remplaçant la matrice À par sa décomposition singulière (9.2) 
et en effectuant la substitution 


X*z=u, Y*b=d, 
nous aboutissons au problème de la minimisation de la fonctionnelle 
du résidu 
Du) =] Pu—d|E 
à matrice diagonale P. Les normes euclidiennes des vecteurs x et x 


coïincident ; c’est pourquoi la résolution du système (9.6) est bien 
définie par la solution du système 


Pu = d. 
Des raisonnements analogues montrent que si l’on admet que 
X*z=u, Y"“b=d, 
Y*EX=Q, Y'e—0, 
le système perturbé (9.7) est équivalent au système 
(P+Q)u=d+0. 
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Dans ces conditions encore a lieu (9.5) et, bien sür, 


Iz—zik=fQlu—ulk, elle =1|o le. 


La décomposition singulière permet de réduire au système à 
matrice diagonale non seulement le système (9.6), mais encore cer- 
tains systèmes dont les matrices sont associées d’une façon définie 
à la matrice À. Examinons, par exemple, les systèmes 


(A*A}2y= A*b, (A*A) (A*A) 2? z= A*b. (9.8) 


En portant au lieu de la matrice À sa décomposition singulière (9.2) 
et en effectuant la substitution 


Xty=v, X*z=w, Y*“b= d, 
on aboutit aux systèmes 
(P*P}:u=P*d, (P*P)(P*P) 2w=P*d. (9.9) 
Il est évident que 
lylle = Nulle NMzlle = we. 


La forme diagonale de la matrice P permet de tirer que les systè- 
mes (9.9) et, par conséquent, les systèmes (9.8) sont toujours compa- 
tibles. Le rapport entre les normes de leurs solutions normales et 
de la pseudo-solution normale du système (9.6) traduit le ‘degré 
de l'accord de la matrice À et du second membre b de (9.6). 

Ainsi, la discussion de l'influence de la perturbation sur la ré- 
solution d’un système d'équations linéaires peut se borner à l'étude 
de la perturbation d'un système à matrice diagonale. 

La décomposition singulière d’une matrice permet de simplifier 
l'étude de l'influence de la perturbation d'une matrice sur son 
déterminant. On vérifie aisément que 


| det À — det (À + E) | = | det P — det (P + Q) |. 
Examinons maintenant les valeurs propres, ainsi que les vecteurs 
propres et les vecteurs principaux d’une matrice. On sait [1] que ce 

problème est lié à la résolution des équations de la forme 


(A — EP z=0 (9.10) 


par rapport aux nombres À et aux vecteurs x, p étant des nombres 
entiers positifs ne dépassant pas la multiplicité de À en tant que 
racine du polynôme caractéristique. Dans l’équation perturbée 


(A+HE—ÂÎE) 52—0 (9.11) 


nous admettons la différence entre p et p du fait que les sous-espaces 
cycliques des matrices À +E et À peuvent être de ‘dimension 
différente. 
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Soit la matrice À semblable à la matrice diagonale par blocs A. 
En particulier, si la structure de À est simple, A peut être une 
matrice diagonale ou, dans le cas général, une matrice canonique de 
Jordan. Supposons que la transformation Q réduit À à A. Alors, 


A=QAQ"1. 


En portant cette décomposition dans (9.10) et (9.11) et en effectu- 
ant la substitution 


Q'iz=u, Q'iz — u, 
on aboutit aux équations 
(A—AEy}u=0, 


sn (9.12) 
(A+Q—AE)" u=0, 


z—z=Q{u—u), Q—=Q1EQ. 


Pour l'instant, nous ne pouvons pas affirmer que, dans le cas 
général, les grandeurs des perturbations des problèmes initial et 
réduit coïncident pour une norme quelconque. Pourtant, pour une 
matrice normale cela a encore lieu. Une matrice normale possède un 
système complet de vecteurs propres orthonormés [1]; c'est pour- 
quoi nous pouvons admettre que la matrice Q est unitaire et que 


Iz—2le=llu—ulls Elle. 2 = IQ lle. 2e 


Si la matrice À est normale, alors p = 1. Supposons que la per- 
turbation E soit telle que la matrice À + E soit normale elle aussi; 
alors p = 1. Par conséquent, au lieu de (9.12) nous pouvons considé- 
rer les équations 


Au=hu, (A+Q)u—Âu. 


Cette situation se présentera à l’avance lorsque l’étude portera sur 
l'influence de la perturbation hermitienne d’une matrice hermitienne. 

Ainsi, la discussion des problèmes principaux de l'algèbre liné- 
aire sous l'optique de la théorie des perturbations se ramène en 
effet à l’étude des problèmes analogues aux matrices simples. Nous 
limiterons surtout à ces cas l'étude qui suit. 


EXERCICES 


1. Comment sont liés entre eux les vecteurs singuliers des matrices À, 
A<+E, P + Q? Comparer les coefficients de décomposition de ces vecteurs 
dans une base orthonormée quelconque. 

2. Soit à résoudre le système (9.6). Décomposer le second membre suivant 
les vecteurs singuliers gauches de la matrice À, et la solution, suivant les vecteurs 
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HER droits. Comment sont liés entre eux les coefficients de ces décompo- 
sitions 

3. Quel changement de la solution du système (9.6) provoque une petite 
perturbation des nombres singuliers de la matrice À ? 

4. Soit |] À |: = 1. Démontrer que les normes euclidiennes des solutions 
normales des systemes (9.8) ne sont pas inférieures à la norme euclidienne de la 

notes normale du système (9.6). Dans quels cas ces normes sont éga- 
es 

5. Examinons une matrice À de structure simple, mais aux valeurs propres 
multiples. Montrer que, aussi petite que soit la norme de perturbation E, il 
existe une matrice 4 + E ne possédant pas de structure simple. 

6. Soit une matrice À ne possédant pas de structure simple. Démontrer que 
quelle que soit la grandeur, aussi petite soit-elle, de la norme de la perturba- 
tion E, il existe une matrice À + E qui possède non seulement une structure 
simple, mais encore toutes ses valeurs propres sont distinctes deux à deux. 

7. Comment change la dimension des sous-espaces cycliques de la matrice 
A + E lors de la variation de la perturbation E ? 

8. Peut-on en général poser la question de l’étude de la dépendance de la 
base principale de la matrice À + E par rapport à la perturbation E ? 


$ 10. Matrices non dégénérées 


L'exploration de la perturbation d’une matrice non dégénérée 
est intimement liée aux matrices de la forme E + H, où les élé- 
ments H sont assez petits et où Æ est une matrice unité. On sait [1] 
que, pour une norme quelconque, si || H || 1, la matrice E + H 
est une matrice non dégénérée. De plus, 


(E+H)T=E+ À (—H}. (10.1) 


Soit À une matrice non dégénérée. Examinons la matrice pertur- 
bée À + E, où la quantité E vérifie l'inégalité 


IE II ATP. (10.2) 
Alors, (10.1) entraîne les décompositions suivantes: 
(A+HE) = (E + AE)"1 A"1= A(E + EA"1)"1 — 


© 


=(E+ Ÿ (—Am}) 424 (8 + D (—E41)), (10.3) 


k=1 
d’où l’on tire que 


nu . Je si : A-1|12 
IA+E) A II<IA IX EMA ÉÉE. (10.4) 
Remi 


Introduisons les grandeurs relatives des perturbations des matrices 
A, A”. Plus précisément, 


LED gg1-lA+E4) 
EN F1 Du PAT 


(10.5) 
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Dans cette écriture la relation (10.4) signifie que 


= v AÔA 
ÔA TEA (10.6) 
où 
va = 47111 Il AI. (10.7) 
Supposons maintenant qu'on a à résoudre le système exact d’équa- 
tions linéaires 
Az = b (40.8) 
à matrice non dégénérée À, et le système perturbé 
(A+HE)1=bd+e. 


Si la perturbation E satisfait à la condition (10.2), la matrice 4 +E 
sera non dégénérée et les deux systèmes possèdent des solutions 
uniques. 

Introduisons en supplément à (10. 9) des quantités relatives des 
perturbations des vecteurs x, b, c'est-à-dire 


&r= el, 6b = En | (10.9) 


Il est clair que 


z=(A+E)t(b+e)=(E+A"E)1z+(A+E) te, 
donc 
z—z— N (— AE} z+(A+E) te 
Res 
et, ensuite, pour toutes normes accordées, 


B-si<| > (—A EN 2] +] 4 (e + Z(-E4e) )[< 


<(S MAP EP) Hal (elle 1 SA IIE 1%) = 


R={ Remi 
= NAIEL UE j 1470 lel 
TE TA TEA 
Tenant compte de l'inégalité || b [| < || À || || x ||, on trouve que 
joe PANIER <- LAN HAN (NE, del 
M S—T-ENET << Er (tar ir) 


14 AIT 
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ou, suivant les notations de (10.5), (10.7), (10.9), 


Les formules (10.6), (10.10) donnent les estimations quantitati- 
ves de la perturbation de la matrice inverse et de la solution d’un 
système d’équations linéaires en fonction de la variation de la 
matrice et du second membre du système. On tire de ces formules 
qu’au voisinage de toute matrice non dégénérée, la matrice inverse 
et la solution du système sont des fonctions continues des données 
d’entrée. Dans ces conditions, la relation (10.2) définit le voisinage 
qui délimite la continuité garantie suivant la matrice. La continuité 
de la solution suivant le second membre a lieu partout. 

A titre de conclusion, examinons une conséquence de la décom- 
position (10.1). Soit la matrice unitaire Æ + H. Ceci a lieu si et 
seulement si on vérifie l'égalité 


(E +H)* — (E + H)°t. 


Mais d’après (10.3), pour de petits H elle est équivalente asymptoti- 
quement à la relation 


(E+HŸ &æE-—H, 


d’où il résulte que 
H = — H*, 


Ainsi, pour que la matrice Æ + H soit asymptotiquement unitaire, 
il faut et il suffit que la matrice H soit asymptotiquement anti- 
hermitienne. 


EXERCICES 


1. Démontrer que les éléments d’une matrice inverse et les solutions d’un 
système à matrice non dégénérée sont des fonctions différentiables des données 


d'entrée. 
2. Démontrer que les éléments d’une matrice inverse vérifient les relations 


pe = — {A}: (A y. 


3. Démontrer que les éléments de la solution du système (10.8) donnent 
lieu aux égalités suivantes 


9 {zh 9 {zh à 
= —{A"1 z}}, — {A1}. 
Ah {At} {x}; 3 {bh {A1}r 
4. Sur la base des relations obtenues ci-dessus déduire les formules des 
termes principaux des perturbations d’une matrice inverse et de la solution 
d’un système. Comparer ces formules avec (10.6), (10.10). 
5. Déduire la formule du terme principal de la perturbation du détermi- 
nant de la matrice P + Q, où P est une matrice diagonale non dégénérée. 


$ 11] CONTINUITÉ DES RACINES D'UN POLYNOME ALGEBRIQUE 47 


6. Soient E + H la matrice unitaire et || H || << 1. Démontrer que toutes 
les valeurs propres n de la matrice H satisfont à l’équation 


n= —1/(n+1). 


$ 11. Continuité des racines 
d’un polynôme algébrique 


Pour certaines quantités il existe en algèbre linéaire des formules 
explicites qui les associent à d’autres quantités. Par exemple, il 
existe des formules qui expriment le déterminant d’une matrice à 
l’aide de ses éléments, les composantes de la solution d’un système 
d'équations linéaires à l’aide des déterminants, etc. L'étude de la 
dépendance de ces quantités est relativement simple, au moins au 
sens théorique. 

Pourtant, il est impossible d'obtenir des formules explicites 
qui exprimeraient les racines d’un polynôme supérieur au quatrième 
degré à l’aide de ses coefficients. Par conséquent, il est impossible 
d'étudier directement les relations entre les valeurs propres et les 
vecteurs principaux des éléments d’une matrice. La résolution de 
ces questions présentant un grand intérêt, nous procéderons à cer- 
taines recherches. Nous allons supposer partout que les coefficients 
dominants des polynômes sont égaux à l'unité. 

Examinons un polynôme arbitraire P (z) de degré nr aux coeffi- 
cients complexes a;, où 


P(z)=2"+a,-2"1+4...+az+a. 
Supposons que la suite des polynômes 
P,(z)=2"+an 5214... Ha 52400; 
aux coefficients complexes a;,, converge vers P (2), c'est-à-dire 
lima, ,=a; 


#00 
pour tout i. Par la suite, ces relations seront identifiées à l’égalité 
lim P,(z)= P (z). (11.1) 
s—00 


Les polynômes P (z) et P, (z) possèdent chacun 7 racines, en comp- 
tant chacune d’elles autant de fois que le montre sa multiplicité. 
Mais on ne peut pas dire tout de suite comment, pour de grands s, 
les racines du polynôme P, (z) se rapportent aux racines de P (z). 


Lemme 11.1. Pour tout polynôme P (z) de degré n et tout 
nombre complexe z, au moins une racine de P (z) se trouve dans le 


disque 
|2— 20 LV 1P (2o)|- 


48 THÉORIE DES PERTURBATIUNS [CH. II 


Démonstration. Les formules de Viète qui associent les 
racines d’un polynôme à ses coefficients, entraînent, au signe près, 
que le produit de toutes les racines du polynôme P (z) est égal à a,. 
C'est pourquoi l’une des racines se trouve à l’avance dans le disque 


HRSATAÉ (11.2) 


Décomposons ensuite le polynôme P (z) suivant les degrés z — 2,, 
alors que le terme libre sera égal à P (2). L'affirmation du lemme 
se déduit maintenant de l'inégalité (11.2). 

Désignons par Z; 2», . . -, Z- les racines distinctes deux à deux 
du polynôme P (z). D’après le lemme 11.1, chacun des disques 


I2—2l << IP, (2), (11.3) 


où 4 < i<r compte au moins une racine z, , du polynôme P, (2). 
En tout point, la valeur du polynôme est fonction continue de ses 
coefficients. Par conséquent, (11.1) entraîne les égalités 


lim P, (25) == 0. 


Pour tous les s suffisamment grands, les disques (11.3) ne possè 
dent pas de points communs et les racines 21,4, Ze, 8» + - -, Zr 8 SODt 
distinctes deux à deux. Mais alors, pour 1 <i<r, 

lim Zi, s — Zi. (11.4) 
$—œo 
Si le polynôme ? (z) ne possède pas de racines simples, Îles relations 
(11.4) traduisent une dépendance continue de toutes ses racines par 
rapport aux coefficients. 

Supposons maintenant QUE Z1, Ze, - « +, Zn @t 21,8» Ze, #9 + + +» Zn, 8 
représentent des collections complètes des racines des polynômes 
P (z) et P, (z). Parmi ces racines il peut y avoir des racines égales 
entre elles, mais nous ne supposerons- aucune liaison entre les mul- 
tiplicités des racines de P (z) et de P, (z). 


Théorème 11.1. Les racines des polynômes P, (z) peuvent 
être indicées de façon à vérifier les relations 


lim Zi, s = 21 (11.5) 
s—00 
pour 1<i< n. 

Démonstration. La démonstration sera donnée par 
récurrence. L’affirmation du théorème est vraie pour des polynômes 
de premier et de deuxième degré; on peut s’en convaincre en exa- 
minant les formules explicites qui expriment les racines de ces poly- 
nômes à l’aide des coefficients. Supposons donc qu'elle est vraie 
pour des polynômes de degré ne dépassant pas n — 1. 
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Toutes les racines du polynôme P (z) peuvent être égales entre 
elles. Pourtant, (11.4) entraîne qu'entre les racines de chaque poly- 
nôme P, (z) il est possible d'en découvrir une, z, , par exemple, telle 
que la relation (11.5) soit remplie pour i = 1. 

Désignons par R (2), R, (2) les quotients de la division de P (2), 
P, (z) respectivement par z — 2,, z — z, ,. Soient 

R()=2 4 boat. + biz be, 
R,(2)= 21 + bn, 22 +... + O1, 327 + 00, s- 
L'identité P (z) = (2 — z,) R (z) permet de trouver que 


bn-2 = On + 219 
bh-s =ln_2 + Z10n-29 


bo —_ &; Z102. 


D'une façon analogue, on détermine les coefficients du polynôme 
R, (2). Plus précisément, 


(11.6) 


bn-3, s=@n-2,s + 21, s0n-2, ss 


bo, s =, s FF 21, 01. s- 


En passant à la limite dans le premier et le second membres de ces 
relations et en les comparant avec (11.6), on tire que 


lim R,(z)=R (2). 


£&— 


Les nombres z,, . .., z, sont les racines de R (z) et les nombres 
-+. Z2n,s, Celles de À, (2). Leur ordonnancement éventuel se 
déduit de l'hypothèse récurrente de l'affirmation du théorème. 

Ainsi, les racines d'un polynôme algébrique sont des fonctions con- 
tinues des coefficients, quel que soit le domaine de leur variation. 

Le théorème démontré permet d'affirmer que dans les conditions 
d'une faible perturbation des coefficients d’un polynôme, ses racines 
changent peu. Pourtant, dans le cas général, il ne faut pas s'attendre 
que cette variation soit bien petite. En effet, les racines de tous les 
polynômes P (z) et P, (z) sont limitées supérieurement en module 
par un certain nombre & >> 1. Choisissons le nombre & > 0 et soit 
pour S > 


max [&— ai, «| < E 
O<Li<n—1 


4—0484 
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Etant donné que 
n—i 
P (2) — P, (2) > (a; — &i, s) 2°, 


on & 


n n_4 
IP,(al= [I 14-241 <e—= 


j=i 


pour tout z;. Il en résulte qu’il existe une racine z, telle que pour 
tout e suffisamment petit on ait 


PEN ES 


Dans cette inégalité on atteint l’ordre de dépendance par rapport 
à e. Examinons, par exemple, le polynôme P (z) = z". Il possède 
une racine n#-tuple z, = 0. Quant au polynôme P, (z) = 2" — &,, 
il possède des racines 2, , qui coïncident avec les racines de n-ième 
degré de e,. Il est clair que 


1 
[20 — 21, sl = Îe de 


Ainsi, la perturbation des coefficients d’un polynôme à des grandeurs 
d'ordre e peut entraîner la variation de ses racines à des grandeurs 
d'ordre e!/". Ce phénomène est lié exclusivement à l'existence des 
racines multiples. 

Examinons encore la suite des polynômes P, (z) qui converge 
vers le polynôme P (z). Supposons que le polynôme P (z) est mis 
sous la forme de produit P (z) = Q (z) R (z), où Q (z) et R (z) sont 
des polynômes premiers entre eux. Mettons chacun des polynômes 
P, (z) sous la forme de produit P, (z) = Q, (z) R, (z), de façon à 
observer les relations limites 


lim Q,(z)=0Q (2), 
limR,(z) = R (2). 


Dans ces conditions, on vérifie le 


Lemme 11.2. La vitesse avec laquelle convergent les suites des 
polynômes Q, (2), R, (z) n'est pas inférieure à celle de la convergence 
des polynômes P, (z). 

Démonstration. Soient 2, Z, ..., z des racines dis- 
tinctes deux à deux du polynôme Q (z) et leurs multiplicités égales à 

y Mos + - «+» Mp. Puisque Q (2) et À (z) sont premiers entre eux, 
pour tout s plus grand qu’un certain 5, 


|R(GH1>8>0 (11.7) 
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pour 1 < j < p. Ensuite, on a 
Q()RG=QGR() + e, (2), (11.8) 


où €, (z) est un certain polynôme de degré non supérieur à nr — f{. 
La condition de convergence de la suite des polynômes P, (z) vers 
P (:) signifie que 


lime, (z)=0. 


50 


Dans ces conditions, la vitesse de convergence est définie par la 
vitesse de décroissance des coefficients e, (z). 

Choisissons un nombre arbitraire e >> 0. Il existe un nombre 
> s tel que pour s > s, tous les coefficients du polynôme 2e, (2) 
soient plus petits en module que e. En dérivant l'identité (11.8) 
et en tenant compte de (11.7), on obtient aisément que pour s > s 
on vérifie les inégalités 


IQ (zD1< Ne (41.9) 


pour toutes les racines z, et 0 < À << m,. Ici le nombre N ne dépend 
pas de &. 

La suite des polynômes @, (z) converge vers Q (2). La vitesse de 
convergence est déterminée par la vitesse de décroissance des coef- 
ficients du polynôme 7, (z) = @, (z) — Q (2). Le degré de ce polynô- 
me n’est pas supérieur à m1 + . .. + m, — 1; de plus, aux points 
z, on peut évaluer m, + ... + m, de ses valeurs et des valeurs 
de ses dérivées, puisque 


7 (2) =Q5 (2). (11.10) 


Traitons les relations (11.10) comme un système d'équations 
algébriques linéaires par rapport aux coefficients du polynôme 
Ts (z). D’après (11.9) les seconds membres du système sont des quan- 
tités d'ordre &e, la matrice du système est bien déterminée par les 
racines z,. Par conséquent, il existe un nombre M ne dépendant pas 
de & tel que pour s > s, tous les coefficients du polynôme 7, (2) 
soient inférieurs en module à We. 

Ainsi, la suite des polynômes @, (z) converge avec la même vites- 
se que la suite des polynômes P, (2). Une affirmation analogue est 
certes vraie elle aussi pour la suite des polynômes À, (2). 


Corollaire. Si les coefficients d'un polynôme sont perturbés 
à des quantités d'ordre &, leur racine quelconque de multiplicité m peut 
changer à la quantité d’ordre et/". Toutes les racines simples changent 
à des quantités d'ordre &. : 


&* 
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EXERCICES 


1. Soit la suite des polynômes P, (z) qui converge vers P (z). Supposons 
que z;, soit une racine simple de P (z) et la suite des racines z,., des polynômes 
P, (z) converge vers z,. Désignons LE R (z) le quotient de P (z) par z — z;. 
Démontrer que de grands s donnent lieu à l’égalité asymptotique 


zi, s—24 © (Ps (25) — P (z))/R (zu). 


2. Démontrer que les racines simples sont des fonctions dérivables des 
coefficients du polynôme; de plus 


924 2? 
dap 7 R(z)° 
3. Démontrer que les valeurs propres d’une matrice sont des fonctions con- 
tinues de ses éléments. 
4. Démontrer que les valeurs propres simples et les vecteurs qui leur sont 


associés sont des fonctions dérivables des éléments de la matrice. 
5. Soit. À une valour propre simple de la matrice À. Démontrer que 


81 __ {r}s {yht 
{A} EG y) 
où z, y sont les vecteurs propres des matrices 4, 4° qui correspondent aux va- 
leurs propres À, À. : 
6. Supposons en plus des conditions de l'exercice précédent, que z, le 


vecteur propre de la matrice A%, correspond à la valeur propre pu, où up + À. 
Démontrer que | 


"4 {z}k . {x}s {2} 
2 ET PTE Ta 


7. Soit P (z) un polynôme réel possédant une racine réelle simple :,. Dé- 
montrer que pour une perturbation réelle assez petite des coefficients du poly- 
nôme, la racine la plus proche de z, sera réelle. 


$ 12. Localisation des valeurs propres 


Les divers problèmes de l’algèbre linéaire sont liés à l'étude des 
valeurs propres de la matrice. L'exploration de tels problèmes rend 
souvent nécessaire la localisation des valeurs propres, c'est-à-dire 
la détermination des régions du plan complexe où se trouvent ces 
valeurs. Certes, les moyens de localisation des valeurs propres sui- 
vant les éléments de la matrice doivent être suffisamment simples. 
Quoi qu’il en soit, ces moyens doivent être sensiblement plus sim- 
ples que les méthodes numériques de détermination des valeurs 
propres. 

Un cours d’algèbre linéaire [1] démontre plusieurs affirmations 
qui rendent possible la résolution de certains problèmes de locali- 
sation. 

Supposons qu'on analyse les valeurs propres À, +, . .., À, de 
la matrice À d'ordre r aux éléments complexes a;;. D’après (11.2) 
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au moins une valeur propre se trouve dans le disque | À | < | det À |!/". 
En utilisant l’inégalité de Hadamard [1] pour les déterminants des 
matrices À et A*, nous tirons qu’au moins une valeur propre se 
trouve dans chacun des disques 


PAI< mx (5 Ÿ Layl2)", Al << max (Ÿ Lay)" 


Li<n 


et, par conséquent, dans le plus petit de ces disques. 

Certaines inégalités s’obtiennent à l’aide des normes matricielles. 
On sait [1] que pour toute norme concordante toutes les valeurs 
propres de la matrice À se trouvent dans chacun des disques 


[AI<IAI FAT< IA I. 
Pour la {-norme ou la -norme, ces inégalités s’écrivent 


n 

£ à 

[AS max à ; laul, (AIS max 2 layl. 
1<i<n 1LISN i=i 


L’estimation donnée par la norme euclidienne est faible du fait 
qu’en réalité [1], les valeurs propres de la matrice À donnent lieu 
à l'inégalité 


ñn n 
à VUE à D laul?. 


CS 
LEA 


Désignons par p, et p, respectivement les nombres singuliers 
maximal et minimal de la matrice À. La norme spectrale de la 
matrice est égale à p,. C’est pourquoi toutes les valeurs propres de 
la matrice À se trouvent dans le disque | À] < p.- Un raisonnement 
analogue pour la matrice inverse conduit à l’inégalité p, < |A |. 
En vertu de la dépendance continue des nombres propres et des 
nombres singuliers par rapport aux éléments de la matrice, cette 
inégalité est également vraie pour la matrice dégénérée À. Ainsi, tou- 
tes les valeurs propres de la matrice À se trouvent dans l’anneau 
Pn < | À | < Pi- 

Un principe assez général de la construction des domaines loca- 
lisant les valeurs propres est fondé sur l’idée suivante. Soient À 
une matrice arbitraire et B (A) une certaine condition arithmétique 
dont l'observation suffit pour assurer la non-dégénérescence de la 
matrice À. Si À est une valeur propre, À — ÀE est une matrice 
dégénérée. Il s'ensuit que À peut être une valeur propre de la matrice 
A, si la condition B (A — ÀE) n’est pas respectée. C'est ce qui 
détermine un certain domaine où doivent reposer toutes les valeurs 
propres. 
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Lemme 12.1. Pour que la matrice À soit non dégénérée, il suffit 
d'observer les inégalités 


n 
eul> à le 
Jj 
Ji 
avec i = A, 2, ..., n. 
Démonstration. Supposons que la matrice À soit dé- 


générée. Alors, le système homogène d'équations algébriques li- 
néaires 


D aur= 0, im1, 2,...,n, 
j= 


possède une solution non nulle. Soit x; la coordonnée maximale en 
module de cette solution. Mettons la k-ième équation de ce système 
sous la forme 


aun=—d) oi 

RATR 4 RIT js 
d’où il résulte que 

[ann 121 << Ÿ lat Izsls 
JFR 
et, finalement, 
laut < D | ax sl | < D al. 

j+R jER 

Cette relation contredit les conditions du lemme. 


Corollaire. Pour que À soit une valeur propre de la matrice À, 
il faut que l'inégalité 


—auil< À lal (12.1) 
Si 


soit remplie au moins pour une valeur de i, où 1 <'i << n; autrement 
dit : 

Toute valeur propre de la matrice À repose au moins dans l’un 
des disques de centres a;; et de rayons > [ay oùü1<i<n. 


j+i 

Les domaines (12.1) s'appellent disques de Gerschgorin. Ils sont 
largement appliqués dans diverses recherches liées aux valeurs 
propres. Montrons qu’on respecte le 


Théorème 12.1. Si s disques de Gerschgorin forment un 
domaine G isolé par rapport aux autres disques, alors G compte exacte- 
ment s valeurs propres de la matrice À. 


$ 12] LOCALISATION DES VALEURS PROPRES 99 


Démonstration. La démonstration est fondée sur la 
dépendance continue des valeurs propres d’une matrice par rapport 
à ses éléments. Mettons la matrice À sous la forme de la somme 
A = B + C, où B est la matrice diagonale aux éléments ay; C la 
matrice à diagonale nulle. Examinons maintenant la famille des 
matrices À, = B + eC, où 0 < e < 1. En comparant les disques 
de Gerschgorin de mêmes centres a, des matrices À et À,, on remar- 
que que leurs rayons se distinguent par le facteur &. 

Désignons par G, le domaine fermé composé des disques de 
Gerschgorin de la matrice À, de centres appartenant à G. Par F, 


est désigné le domaine fermé composé des autres disques. Il est 
manifeste que 


Ge G1y Gen Fes =0 (12.2) 


pour 0 < € < 1. Pour e = 0, le domaine G, contient exactement s 
valeurs propres de la matrice À,. Avec les variations de € ces valeurs 
propres changent d’une façon continue. Supposons que pour un 
certain & l’une des valeurs propres s'échappe du domaine G,. Alors, 
en vertu de la continuité et de la deuxième condition (12.2), il y 
aura un & tel que l’une des valeurs propres de la matrice À, n’ap- 
partienne ni à G, ni à F,. Ceci est impossible; donc. pour toutes 
les valeurs admissibles de €, le domaine G, possède exactement s 
valeurs propres de la matrice À,. Mais pour e — 1, le domaine G, 
coïncide avec le domaine G, et la matrice À, avec la matrice À. 


Corollaire. Si un disque de Gerschgorin quelconque est isolé, 
il contient exactement une valeur propre. 


Corollaire. Si avec un certain i tous les k -£ i observent 
les inégalités 


la —enl> À les + laisls (12.3) 
J'R 34h 
alors, le disque de Gerschgorin 
[A ail < ni [ail (12.4) 
JR 


contient exactement une valeur propre. 

Pour démontrer cette affirmation il suffit de signaler que si 
les conditions (12.3) sont observées, le disque (12.4) est isolé des 
autres disques. 

Comme nous l'avons déjà dit, les moyens de localisation des 
valeurs propres doivent être assez simples. Mais la détermination 
des disques de Gerschgorin est si simple, qu’on peut les écrire expli- 
citement et les étudier pour toute matrice de la forme 


B = DAD“, (12.5) 
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où D est une matrice diagonale. Si d,, d,, . .., d, sont les éléments 
de la matrice D, toute valeur propre de la matrice À se trouve dans 
l'un des disques 


(al < » Jay 1] SE 

Ji À 

En choisissant de la façon convenable la matrice D, on peut changer 

les rayons des disques de Gerschgorin, rendre isolés les disques ou 

les groupes de disques, etc. Dans de nombreux cas, la transforma- 

tion (12.5) permet de rendre bien plus exacte la localisation des 
valeurs propres de la matrice À. 

Les études liées aux disques de Gerschgorin portaient toutes sur 
la matrice À. Or, des affirmations analogues sont vraies également 
pour la matrice A’. Les domaines (12.1) sont alors remplacés par les 
domaines 


A—aul< 3 layl s (12.6) 
Sri 
qui s'appellent aussi disques de Gerschgorin. 


EXERCICES 


1. Peut-on avancer que toutes les valeurs propres d’une matrice À repo- 
sent dans n'importe quels r disques des 2n disques (12.1), (12.6) ? 

2. Soient l'élément a;, et les coefficients réels du polynôme earactéristique 
de la matrice 4. Démontrer que si les conditions (12.3) sont observées, la valeur 
propre reposant dans le disque (12.4) est réelle. 

3. Supposons que la permutation des lignes et des colonnes ne peut pas 
réduire la matrice À à la forme triangulaire par blocs. Démontrer que toutes 
les valeurs propres de la matrice reposent à l’intérieur de la réunion des disques 
de Gerschgorin, sauf dans le cas où la valeur propre est le point limite commun 
de tous les nr cercles. 

4. Soit À la valeur propre de la matrice et supposons que le défaut de la 
matrice À — ÀE soit égal à m. Démontrer que À repose au moins dans m disques 
de Gerschgorin. 

5. Démontrer que chaque valeur propre de la matrice À repose au moins 
dans l’un des domaines 


al À —al N° last D laÿsl, 
sq si 


où 1<i,j Lnet i# j. Ces domaines s'appellent ovales de Cassini. 
6. En utilisant l'inégalité de Hôlder [1], démontrer que chaque valeur 
propre de la n'atrice À repose au moins dans l’un des disques 


li —aul < (© lasl)* (5 laut)", 
JF Fi 


où 0<La<f. 
7. Soit À une matrice diagonale. Analyser les cercles de Gerschgorin de la 
matrice À + Q. Comment ils changent avec la diminution de la matrice Q? 
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8. Supposons que les éléments de la matrice Q sont des quantités d'ordre w. 
Examinons une valeur propre simple À de la matrice A. En utilisant la transfor- 
mation (12.5), démontrer que l’élément diagonal correspondant de la matrice 
A + Q se distingue de sa valeur propre de la quantité d'ordre w*. 

9. Que donne l’utilisation de la transformation (12.5) pour l’étude du cas 
de la valeur propre multiple À de la matrice A? 

10. En utilisant la transformation (12.5) localiser les valeurs propres de 
la matrice À + Q, où A est une matrice canonique de Jordan. 

11. Comparer les grandeurs des perturbations des valeurs propres obtenues 
dans les exercices 7 à 10 avec les grandeurs des perturbations des racines d'un 

olynôme algébrique. Quelle est l’origine de leurs différences même suivant 
’ordre de petitesse ? 


$ 13. Matrices diagonales par blocs 


L'étude des matrices diagonales par blocs est liée surtout au 
problème complet des valeurs propres. On sait [1] que toute matrice 
carrée est analogue à une matrice diagonale par blocs, dont les 
valeurs propres des blocs différents sont différentes. C’est la forme, 
notamment, d’une matrice canonique de Jordan. Comme nous l’avons 
déjà dit, l’étude de la perturbation des matrices de forme géncrale 
se ramène à l'étude des matrices diagonales par blocs. 

Soient les matrices À, B, C de dimensions respectives nr X n, 
m XxX m, nr X m. Examinons l'équation matricielle 


AZ —2B=C, (13.1) 


où Z est la matrice nr X m cherchée. En égalant les éléments du 
premier et du second membre de cette équation, tirons la conclusion 
qu'elle est équivalente au système de nm équations algébriques 
linéaires par rapport à rm éléments de la matrice Z. 


Théorème 13.1. L'équation (13.1) possède une solution unique 
si et seulement si les matrices À et B ne possèdent pas de valeurs propres 
communes. 

Démonstration. Pour que l'équation (13.1) possède une 
solution unique, il faut et il suffit que l'équation homogène 


AZ — ZB =0 (13.2) 


ne possède qu’une solution nulle. C’est pourquoi, sans limiter la 
généralité, on peut se borner à démontrer le théorème pour l’équa- 
tion (13.2). 

Nécessité. Supposons que l'équation (13.2) ne possède que 
la solution nulle. Supposons encore que dans ces conditions À est 
la valeur propre commune des matrices À, B. Désignons par x, y 
les vecteurs propres des matrices À, PB”, qui correspondent à À et 
considérons la matrice Z, = ry’ de rang unité. Il est évident que 
ZA 0, mais m? 


AZo — Z9B = (A2) y' — x (By) = (àx) y — x (y) = 0. 
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Cette réduction à l’absurde montre que les matrices À et B ne peu- 
vent pas posséder des valeurs propres communes. 

Suffisance. Supposons que les matrices À et B ne possèdent 
pas de valeurs propres communes, mais que l'équation (13.2) possède 
une solution non nulle Z,. Désignons par r le rang de la matrice Z,. 
Il est clair que r > 1. La matrice Z, est équivalente [1] à la matrice 
E,, où £, est la matrice diagonale dont les premiers r éléments diago- 
naux sont égaux à 1, alors que les autres sont nuls. Par conséquent, 
il existe des matrices non dégénérées À, S telles que 


Zo — RE,S. (13.3) 


En portant maintenant Z, de (13.3) dans l’équation (13.2) on obtient 
que (R-TAR) E, = E, (SBS-1). La comparaison des éléments du 
premier et du second membres de cette relation montre que R-14AR 
et SBS”1 sont des matrices triangulaires par blocs, les blocs (sous- 
matrices) diagonaux de l’angle supérieur gauche étant égaux entre 
eux et d'ordre r. C’est pourquoi les polynômes caractéristiques des 
matrices R-1AR et SBS-1, ou, ce qui revient au même, des matrices 
A et B, ont un diviseur commun de degré r. Ce qui contredit à la con- 
dition suivant laquelle les matrices À et B ne possèdent pas de 
valeurs propres communes. Par conséquent, l’équation (13.2) ne 
peut pas avoir de solution non nulle. 

Examinons la matrice diagonale par blocs À dont les sous-matri- 
ces A,, A, . .., À, ne possèdent pas de valeurs propres communes. 
Soit À + Q une matrice perturbée. Partitionnons la matrice Q 
en sous-matrices rectangulaires de façon que leurs dimensions soient 
les mêmes que celles des sous-matrices correspondantes de la matri- 
ce .\. Introduisons la notation 


— À 0 — Qi. ses 
A = Îa, . € ur Sdr2 ++. or 
0 ‘A, D: O...0. 


Réduisons la matrice À + ( par des transformations de similitude 
À la forme diagonale par blocs. Cela signifie qu'il faut trouver une 


matrice non dégénérée À et une matrice diagonale par blocs À telles 
que 

X-1(A+Q) X = À. 
Certes, les sous-matrices diagonales de la matrice À doivent avoir 
les mêmes dimensions que les sous-matrices de la matrice A. 
Si Q est une matrice nulle, X est alors une matrice unité. C'est 
urquoi pour de petits Q cherchons la matrice À sous la forme 


po 
X = E + H où H est une petite matrice. Partitionnons la matri- 
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ce H en sous-matrices H,, d’une façon analogue à Q. En tenant comp- 
te de (10.1), on trouve 


X-1(A+0Q) À = (E—H) (A+Q)(E+H) = A+Q—HA+AH. 


Sélectionnons maintenant H de façon qu’aux petits du deuxième 
ordre près le second membre de la relation obtenue soit une matrice 
diagonale par blocs analogue à A. A cet effet, posons 


H}} =0 (13.4) 
pour tout k; les sous-matrices extradiagonales H,, sont déterminées 
par les équations 

HA _— Ari = Qrr- (13.5) 

Par condition, les matrices A, et A, ne possèdent pas pour 

k == l de valeurs propres communes; par conséquent, les équa- 
tions (13.5) sont résolubles. Supposons que pour k = / les éléments 


de Q sont petits par rapport aux distances entre les ensembles des 
valeurs propres des matrices A, et A,;. Dans ce cas, les matrices 


H,» seront du même ordre de petitesse que Q,,. Désignons par Q 
Ja matrice diagonale par blocs composée de sous-matrices diagonales 
de la matrice ( pour obtenir que À Æ A + Q; de plus, 


À, = Ai +OQ (13.6) 
pour tout k. 


La formule (13.6) détermine les termes principaux des perturba- 
tions des valeurs propres. Pourtant, on peut obtenir d’une façon 
analogue une relation plus exacte. Supposons que la matrice H se 


calcule d’après (13.4), (13.5). Cela signifie qu’elle satisfait à l’équa- 
tion 


Q—Q = HA— AH 
et possède le même ordre de petitesse que la matrice (2. Ensuite, 
trouvons qu'aux termes de petitesse d'ordre trois près, 
(E +H)" (A +9Q) (E +H) = 
=(E—H+H—...)(A+O)(E+H) = 
æ A+Q—HA+AH—H (Q— HA + AH) + QH — 
=A+Q+HQOH—HQ. (13.7) 
Ainsi, aux termes de petitesse d'ordre trois près la matrice 
A + Q est semblable à la matrice À + Q de perturbation QH — 
— HQ. 
Pour chercher la matrice diagonale par blocs à laquelle est 
semblable la matrice du premier membre de (13.7), utilisons encore 
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la formule asymptotique (13.6), en remplaçant les matrices A et Q 
respectivement par les matrices À + Q@ et QH — HQ. En vertu 
de la dépendance continue des valeurs propres par rapport aux élé- 
ments de la matrice, pour de petits Q,, les sous-matrices A; + Q,, 
‘auront pas de valeurs propres communes. Donc 


r 
M = A, +Ou+ à Qi. (13.8) 

i7k 
Cette égalité est déjà vraie aux termes de petitesse d'ordre trois près. 
La discussion est plus efficace si la solution des équations peut 
être écrite sous une forme explicite. Examinons un des cas des 
plus importants, lorsque la matrice À est diagonale. Sans limiter 


la généralité, on peut admettre que chacun des blocs A4 est une 
matrice scalaire. 


Désignons par À, et À, où 1<i<n, les valeurs propres des 
matrices À et À; par w;,, les éléments de la matrice Q. Aux gran- 


deurs de deuxième ordre de petitesse près À; coïncident avec les 
valeurs propres des sous-matrices (13.6), c’est-à-dire elles s’obtien- 
nent par glissement des valeurs propres des sous-matrices @,, sur 
les éléments diagonaux des sous-matrices A;,. On sait [1] que la 
somme des carrés des modules des valeurs propres d’une matrice 
ne dépasse pas le carré de sa norme euclidienne; donc, 


7 r 
D Lu dUl2< N IQ lË (13.9) 
i=i k=1 
et, à l'avance, 
n 
2 lu hr <IQIE. 


La relation obtenue est vraie asymptotiquement pour toute 
matrice Q. Mais si les matrices A et Q sont hermitiennes, elle s'avère 
vraie indépendamment de la grandeur de Q [5]. Pour une matrice 
normale Q l'inégalité asymptotique (13.9) se transforme en égalité 
asymptotique. 

Dans le cas où la matrice A est diagonale, les équations (13.5) 
se résolvent sans peine. Pour les éléments n;; de la matrice H on 
obtient avec (13.4) les expressions suivantes: 


=, 0, M= 
Les @uy/(j— hi), MA. 
De la sorte, lorsque les éléments d'une matrice diagonale À sont 


perturbés à des quantités d'ordre w, d’après (13.9) toutes ses valeurs 
propres changent également à des quantités d'ordre w. Comme le montre 


(13.10) 
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(13.10), la base principale de la matrice À + Q peut être choisie et 
ordonnée de façon que chacun de ses vecteurs se distingue du vecteur 
propre correspondant de la matrice À encore de la quantité d'ordre o. 
Notons qu’il est impossible de parler de la comparaison des bases 
constituées de vecteurs propres des matrices À et À + Q, du fait 
que la matrice À + Q peut ne pas avoir de telle base. 

Pour les valeurs propres simples ces conclusions sont améliorées. 
Supposons que la valeur propre À, de la matrice A soit simple; 


alors, les sous-matrices correspondantes des matrices À et A seront 


d'ordre un. Maintenant (13.6) conduit à l'égalité asymptotique 


LS 


À Æ Àp + pp pour la valeur propre À, de la matrice perturbée. 
(13.8), (13.10) entraînent l'égalité vraie aux termes de petitesse de 
troisième ordre près. Plus précisément, 


Âp = Àp+Opp + 5 Sri@ip/Ap— À). (13.11) 


Résumons : la valeur propre À, de la matrice À + Q qui correspond 
à la valeur propre simple À, de la matrice À ne se distingue de son 
élément diagonal que de la quantité d'ordre w*. Dans ce cas, les for- 
mules (13.10), pour j = p, i — p, donnent les expressions asymptoti- 
ques des coordonnées du vecteur propre normé de la matrice À + Q 


Le. 


qui correspond à À». 


EXERCICES 


1. Trouver la forme explicite de la solution de l’équation (13.1), si les 
matrices À et B sont des lules canoniques ou des matrices (formes) canoni- 
ques de Jordan. 

2. Démontrer que l’ensemble des valeurs propres de l'opérateur 4Z — ZB,. 
compte tenu de leur multiplicité, coïncide avec l’ensemble des nombres de la 
forme À — u, où À, u sont les valeurs propres des matrices À, B. 

3. Les « vecteurs » propres de l'opérateur AZ — ZB que représentent-ils ? 
Comment ils sont liés aux vecteurs propres des matrices À ct B 

4. Ecrire des expressions d’un ordre plus précis que (13.10), (13.11). 

5. Obtenir des estimations exactes des erreurs des formules (13.10), (13.11). 

6. Soient des matrices hermitiennes A et Q. Démontrer que la matrice H, 
déterminée par les formules (13.4), (13.5), est une matrice antihermitienne. 


7. Démontrer que les polynômes caractéristiques des matrices A et À + Q 
coïncident aux termes de petitesse de deuxième ordre près. 

Soit À une matrice hermitienne. Démontrer que la base composée de 
ses vecteurs propres peut être choisie de façon à dépendre continüment des élé- 
ments de la matrice. 

9. Comment changent les formules si on n’impose pas l’observation de la 
condition (13.4)? 

10. Supposons qu’on ait trouvé d’une façon quelconque les vecteurs princi- 
paux de la matrice A + Q. Comment ils s'expriment à l’aide des vecteurs prin- 
cipaux déterminés par les relations (13.4), (13.5)? 
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$ 14. Matrices de structure générale 


Les racines d’un polynôme sont des fonctions continues des 
coefficients. De plus, la petitesse des racines simples est de même 
ordre que la petitesse de la perturbation des coefficients eux-mêmes. 
Cependant, les racines multiples peuvent changer sensiblement. Les 
valeurs propres d'une matrice coïncident avec les racines du poly- 
nôme caractéristique. Par conséquent, il y a des raisons de supposer 
que les valeurs propres multiples changeraient elles aussi d’une 
façon importante par rapport aux valeurs propres simples. 

Pour le moment, les résultats obtenus ne le confirment pas enco- 
re. Qui plus est, il s’est avéré que. indépendamment de leur multi- 
plicité, toutes les valeurs propres d’une matrice simple ont le même 
ordre de perturbation que la matrice. 

D'après (13.6), l’étude asymptotique de l'influence de la pertur- 
bation d'une matrice de structure générale se ramène au problème 
analogue d’une matrice de mêmes valeurs propres. Mais une telle 
matrice est nécessairement semblable à une matrice de la forme 


Âo%: 
Ào2 


A ° (14.1) 
Ro n-1 
_ À 

Aussi peut-on essayer d’obtenir des renseignements supplé- 
mentaires en étudiant les perturbations des matrices (14.1). 

L'influence de la perturbation dépend non seulement de sa 
grandeur, mais encore de l’emplacement de sa concentration. Suppo- 
sons que la perturbation w;,; porte sur un seul élément en position 
(à, j). Si i<<'j, toutes les valeurs propres restent sans changer; 
si i — j, une seule valeur propre change de w;;; mais si à > j, le 
changement porte sur i — j + 1 valeurs propres. 

Le calcul du polynôme caractéristique de la matrice perturbée 
(14.1) permet d’établir sans peine que les valeurs propres modifiées 
sont les racines du polynôme 


(Ao— A) —(— 1)#oaa;+ + Œi-1e 


On'en tire que, dans le cas général, les valeurs propres subissent 
surtout l'effet produit par la perturbation de la position (n, 1). 
D'après l’ordre de dépendance, elle est la même que pour les racines 
multiples du polynôme. La matrice (14.1) doit alors être une cellule 
canonique de Jordan. 

Ainsi, des perturbations, grandes quant à l’ordre, des valeurs 
propres d’une matrice peuvent réellement avoir lieu. Mais ceci 
n’est dû qu’à la présence des cellules de Jordan dans la structure 
de la matrice. 
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EXERCICES 


1. Est-il avantageux du point de vue de la précision de calculer les va- 
leurs propres d’une matrice comme racines d’un oo iéie caractéristique ? 

2. Supposons que la matrice À s’obtienne par faible perturbation d'une 
matrice de structure simple et qu’elle possède des cellules de Jordan. Une faible 

erturbation de la matrice À rend-elle possible des perturbations grandes quant 
a l’ordre de ses valeurs propres? 

3. A-t-on des raisons de craindre de perdre en D. des valeurs propres 

par suite de l’apparition des cellules de Jordan sous l’effet des erreurs d’arrondi ? 

Les nombres non nuls @1, . . ., Œän-1 de la matrice (14.1) peuvent être 
rendus par transformation de similitude aussi petits ou aussi grands que l’on 
veut. Une telle transformation modifie-t-elle la dépendance des valeurs propres 
par rapport aux perturbations de la matrice ? 

5. Analyser l'influence exercée par la perturbation d’une matrice bidiago- 
nale aux valeurs propres distinctes. 

6. Une perturbation hermitienne (non hermitienne) peut-elle faire appa- 
raître des cellules de Jordan dans une matrice hermitienne? 

7. Supposons que À est une matrice de multiplicité p du polynôme caracté- 
ristique de la matrice À. Supposons ensuite, que le défaut de la matrice 4 — ÀE 
est égal à m. Démontrer que pour la matrice À il existe une perturbation de- 
la norme e telle que toutes les valeurs propres qui correspondent à À changent. 
de la grandeur d'ordre el/P-n+1), 


$ 195. Décomposition singulière 


Poursuivons l'étude de la perturbation d’une matrice diagonale- 
par blocs, l’associant cette fois, pourtant, à la décomposition singu- 
lière. Les nouveaux résultats s’assimileront pour beaucoup à ceux 
obtenus auparavant. Une différence notable ne consiste que dans 
le fait que maintenant nous examinerons seulement les transfor- 
mations unitaires d'une matrice. 

Soient les matrices À, B, C, D de dimensions respectives 
: Xn,mxXm,n X m,n X met le système d'équations matriciel- 
es 


AU—VB=C, UB*— A*V =D, (15.1) 
où U, V sont les matrices nr X m cherchées. 


Théorème 15.1. Le système (15.1) possède une solution 
unique si et seulement si les matrices À et B ne possèdent pas de nombres 
singuliers communs. 

Démonstration. Transformons le système (15.1) en un: 
système équivalent mais d’une forme plus simple. Il existe pour À 
et B des décompositions singulières 


A=OQAR, B = FMG, (15.2) 


où À, M sont des matrices diagonales aux éléments non négatifs 
À;, u,, alors que les autres matrices sont des matrices unitaires. 
En portant les décompositions (15.2) dans (15.1) et après avoir 
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effectué des transformations plutôt simples, on aboutit au système 


AÜ—ŸM=C, ÜM—AŸ =D. (15.3) 
Jci 


Ca 


Ü—RUG*, V—OQ"VF, 
C—Q*CG*, D= RDF. 


11 est manifeste qu'il suffit d'explorer le système (15.3). Mais 
en comparant les éléments de ses premier et second membres, on 
établit qu’il se décompose en systèmes d'ordre deux par rapport aux 
éléments des matrices l/, V. Les déterminants de ces systèmes sont 
distincts de zéro si et seulement si À; + u} pour tous les à, j. Or, ceci 
conduit justement à l'affirmation du théorème. 

Examinons la matrice carrée diagonale par blocs P dont les 
sous-matrices P,, P,, ..., P, ne possèdent pas de nombres singu- 
diers communs. Soit P + Q la matrice perturbée. Partitionnons la 
matrice Q en sous-matrices rectangulaires Q,; de façon que ses sous- 
matrices diagonales aient les mêmes dimensions que les sous-matrices 
correspondantes de la matrice P. Réduisons la matrice P + Q à la 
forme diagonale par blocs à l’aide des transformations unitaires. 
Cela signifie qu’il faut chercher les matrices unitaires X, Ÿ et la 


matrice diagonale par blocs P telles que 
Y*(P+Q) X —P, 
en supposant que les sous-matrices P, de la matrice P ont les mêmes 
dimensions que les sous-matrices de la matrice P. 
Cherchons encore les matrices À, Ÿ comme des matrices unités 
perturbées, c’est-à-dire sous forme de sommes X = E + H; Y — 


— E = T, où H et T sont de petites matrices. Puisque À et Y 
doivent être unitaires, H et T seront asymptotiquement antihermi- 
tiennes. Ces matrices sont partitionnées en sous-matrices H;; et T;; 
d'après le même principe que Q. On a 


Y*(P+Q) = (E—T)(P+Q)(E+H) =P+Q—TP+PH. 
Choisissons les matrices H et T de façon qu'aux petits d'ordre 


deux près le second membre de la relation obtenue soit une matrice 
diagonale par blocs. A cet effet posons 


Hz = Ty, =0 (15.4) 
pour tout k, alors que les sous-matrices extradiagonales H}, Ty 
se détermineront d’après les systèmes 

TuPi— Pur Qu, 
TP — Pin = Que 
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En vertu des conditions imposées aux matrices H et T 
Tu= Th, Hu= —H}; 

on aura donc en réalité les systèmes 

Pr TuPi= — Qui, 

HurP? — PiTu = On. 
Pour k = I les matrices P, et P, ne possèdent pas de nombres singu- 
liers communs; par conséquent, les systèmes (15.5) sont résolubles. 
Supposons qu'avec À =£ L les éléments de sont petits par rapport 
aux distances entre les ensembles des nombres singuliers des matrices 


P, et P,;. Dans ce cas, les matrices H,,, T,: seront de même ordre 
de petitesse que (2. 


Soit Ô une matrice diagonale par blocs composée de sous-matrices 
diagonales de Q. Les matrices H et T vérifient l'équation Q — Q — 
= TP — PH; c'est pourquoi P æ P + Q; dans ces conditions, 
certes, 


(45.5) 


Pr = Pr + Qu (15.6) 


pour tout k. 

La formule (15.6) détermine les termes principaux des perturba- 
tions des nombres singuliers, et les solutions des systèmes (15.5), 
les termes principaux des perturbations des vecteurs singuliers. 
Là encore l’exploration est plus efficace, si la résolution des systè- 
mes (15.5) peut s’écrire sous une forme explicite. 

Supposons que P est une matrice diagonale aux éléments non 
négatifs disposés dans l'ordre de non-croissance. Dans ce cas toutes 
ses sous-matrices P, sont scalaires. Rappelons qu’à l’aide des trans- 
formations unitaires toute matrice peut être réduite à cette forme. 


Désignons par p;, py, les nombres singuliers des matrices P, PF: 
par &;,, les éléments de la matrice (©. De tels systèmes (15.5) se 
résolvent facilement. Pour les éléments ;;, 1: des matrices H, 
T on obtient en commun avec (15.4) les expressions suivantes : 


0, . si Di = Pis 
Mi = À CijPi top; (15.7) 
TPE Pi Pi 
0, Si Pr=P} 
Uj = OP; + oO pps (15.8) 
P5— p} ’ Pi Æ (JE 


Evaluons la perturbation des nombres singuliers de la matrice P, 
ou, ce qui revient au même, l'écart des nombres singuliers des ma- 


trices P, par rapport aux éléments diagonaux des matrices P,. On sait 
50484 
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que les nombres singuliers de toute matrice carrée À coïncident 
avec les valeurs propres de la matrice (4A*)1/° [1]. Les matrices P, 
sont scalaires par hypothèse; c’est pourquoi, pour P; = 0, on a 


PPS = (Pa + Qu) (Pa + Qu) = 
QpxnHO?, 12 
æ PR + Pain + QuaPs & (P+ EE)". 

Mais si P, = 0, alors 

PP: = 0,0%. (15.9) 
La matrice 

Or + Ok 

P, + AR EERR = 
est obtenue par perturbation hermitienne de la matrice diagona- 
le P,. Pour apprécier les perturbations de ses valeurs propres on 
peut utiliser la relation (13.9). Dans le cas (15.9), on tient compte 
du fait que la somme des carrés de tous les nombres singuliers est 


égale au carré de la norme euclidienne d’une matrice. Ceci dit, 
on obtient 


à lp 2 1 Que lIÉ (15.10) 
et, bien entendu, 
a ss D” an 
2 le —Pil RIRE. (45.11) 


Résumons. Lors de la perturbation des éléments d’une matrice P 
à des quantités d'ordre w, d’après (15.10) tous les nombres singuliers 
changent également de quantités d'ordre w. Comme le montrent 
(15.7), (15.8), les vecteurs singuliers de la matrice P + Q peuvent 
être choisis et ordonnés de façon à être distincts toujours à des quan- 
tités d'ordre w, des vecteurs singuliers correspondants de la matri- 
ce P. Il a été établi que la relation (15.11) est correcte avec de pe- 
tits Q. En fait, elle est respectée indépendamment de la grandeur 
de la perturbation. 

Pour réaliser cette analyse on a admis que la matrice P est car- 
rée. Si P est une matrice rectangulaire, les modifications sont peu 
grandes. En effet, complétons:les miatrices P et Q@ de colonnes (lignes) 
nulles pour les rendre carrées. Les formules (15.7), (15.8) entraînent 
alors que les éléments de la matrice H (matrice T) ainsi introduits 
sont nuls. Par conséquent, si on considère comme nuls les éléments 
«inexistants » des matrices P, Q, les formules (15.7), (15.8), (15. 10) 
ont lieu. également dans le cas d’une matrice P rectangulaire. 
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La seule différence consiste dans une forme quelque peu diffe- 


rente de la matrice P. Elle garde maintenant tous les éléments 
w;; au-dessous (à droite) des éléments diagonaux qui correspondent 
aux nombres singuliers nuls de la matrice P. 


EXERCICES 


4. Soit le module de la différence entre les nombres singuliers des matrices 
A et B non inférieur à 6. Démontrer que pour résoudre le système (15.1), il 
faut que la relation 


max {lUlls, IVe) << (ICE +121): 


soit respectée. 

2. Examinons la matrice diagonale P aux éléments non négatifs et suppo- 
sons que les éléments de Q sont des quantités d'ordre w. Démontrer que le nom- 
bre singulier de la matrice P + Q, qui correspond au nombre singulier simple de 
la matrice P, se distingue de la partie réelle de l’élément diagonal de la matrice 
P + € d’une quantité d’ordre w°. 

3. Démontrer que les nombres singuliers dépendent continüment des élé- 
ments de la matrice. 


4. Démontrer que les bases composées de vecteurs singuliers peuvent être 
choisies de façon à assurer une dépendance continue des éléments de la matrice. 
Peut-on par le même procédé que celui employé pour déduire la formu- 
1 ee) obtenir une formule analogue pour le cas de la décomposition singu- 
ière 
6. Comment changent les formules (15.7)-(15.11) si on n’impose pas l’ob- 
servation des conditions (15.4)? 
7. Supposons qu’on ait trouvé d’une façon quelconque les vecteurs sin- 
puise orthonormés de la matrice P + Q. Comment s’expriment-ils à travers 
es vecteurs singuliers déterminés par les relations (15.4), (15.5) ? à 
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Si le défaut de l'opérateur est distinct de zéro, toute pseudo- 
solution est instable à la perturbation de l'opérateur [1]. T1 en ést 
ainsi du fait que l’image de l'opérateur perturbé peut différer sen- 
siblement de l’image de l'opérateur et avoir même une autre dimen- 
sion. 

Toutefois, dans chaque pseudo-solution on peut dégager, sa 
partie stable. 71 importe de souligner que cette partie peut être calculée 
par une méthode numérique d'après une information donnée approzi- 
mativement. Quant, à la partie instable de la pseudo-solution, il est 
impossible de la déterminer d'après unie information approchée et pour 
son estimation il faut recourir à des renseignements supplémentaires. 
Comme on l'a déjà signalé, l’étude de l’influeñce des pérturba- 
tions sur une pseudo-solution peut se borner à l'examen de la pértur* 
bation d’un système d'équations algébriques linéaires à matrice 
diagonale composée. de nombres singuliers. ‘Soit 

| -Pu = d : ’ (16.1) 
s* 
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un système exact. Désignons par p,, . .., p, les éléments diagonaux 
de la matrice P et admettons quep, > p: > ... Pr > Pn+1 = 0. 
Supposons ensuite que 


(P+Q)u=d+o 


soit un système perturbé. 

Si la matrice P est non nulle, alors, parmi les p,, ..., Pn, Pn+1 
éléments, il existe au moins un couple de nombres voisins égaux 
entre eux. Supposons que p, — pr+, # 0 et que les éléments de la 
matrice (2 et du vecteur w soient suffisamment petits par rapport 


à Pa — Px+1. Introduisons la notation X,, X, pour les sous-espaces 
tendus sur les premiers k vecteurs singuliers droits des matrices P 
et P + Q. L'analyse réalisée précédemment permet d'affirmer que 
ces sous-espaces se distinguent peu l’un de l’autre. C’est pourquoi 


on peut s’attendre que les projections u,, u, des pseudo-solutions u 


et u des systèmes exact et perturbé sur X, et X, se distingueront 
également peu. 

Partitionnons chacune des matrices considérées en quatre sous- 
matrices rectangulaires, en admettant que la sous-matrice de l'angle 
gauche supérieur est une matrice carrée d'ordre k#. Si 


P;; 0 1! 
H 10 .. 


alors u, coïncide avec la pseudo-solution normale du système 


et, donc, 
Pa 0 
u=| 5" or. (16.2) 


Soit, ensuite, 


PutQn  Qn | 
P Q — | 8 : 
Li Qn  PytQn] 


Lors de la discussion de la décomposition singulière on a établi 
l'existence des matrices 


| E si [ E mé 
—H}, E j’ —T!, E | 
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telles que 


e si PE (2 Il E rh 
L Ti E Qu Po + (97 — H: E 


PE Lu 0 | 
EH 0 P2 + Oo J° 


C'est pourquoi w, coïncide asymptotiquement avec la pseudo-solu- 
tion normale du système 


E Te ][ Pu+Qn 4 E en 
— 

[me #0" olu z» Jé-t+e 
et, par conséquent, 


: E Hp» 1[ (Pu+Qu) | E si 
— d 
_ ee || 0 0 A ge |6+9 
(16.3) 


Maintenant il est facile d'obtenir l'expression asymptotique de 
l'erreur u; — u,. En mettant les vecteurs d, w sous la forme de 


sommes 
_fd 0 _fo 0 
d[o]al eo 


où d,, w, ont la dimension k, on trouve d'après (16.2), (16.3) que 
. Me” + P1iT de | 
Up — Ur = PRE : 
Hf2Prid 
Supposons qu’on sait que le système exact est compatible. 
Choisissons comme p; le nombre singulier non nul minimal. Alors, 


d, = 0, la projection u, coïncide avec la solution normale u, du 
système (16.1), et (15.5) entraîne que 


Tiuo= —P1195, Hi2= —Qi2Pit. (16.5) 


Si on introduit la notation 


IR 


(16.4) 


lo 1 o Uy—u 
Pre: ° = ° nd CT CR 
vb= || P" [el P Île 
la relation (16.4) conduit avec (16.5) à l'estimation 
Ôu < vp (ÔP + ôd), (16.6) 


dont la liaison asymptotique avec (10.10) est évidente. 
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L'estimation (16.6) se conserve également pour le système (16.1) 
« presque compatible », c’est-à-dire pour un vecteur d. assez petit 
bien que distinct de zéro. Dans ce cas-là, la projection u4 coïncidera 
avec la pseudo-solution normale du système (16.1). 

De la sorte, si le système exact d'équations algébriques linéaires 
est compatible ou presque compatible et la perturbation est petite par 
rapport au nombre singulier non nul minimal de la matrice exacte, la 
pseudo-solution normale peut être déterminée par le système perturbé 
avec la même précision que pour un système à matrice non dégénérée. 

Dans le cas où le système exact est incompatible, l’influence 
de la perturbation de la matrice devient plus sensible. Si on suppose 
encore qu'elle est suffisamment petite par rapport au nombre singu- 
lier non nul minimal, alors on aura dans les notations introduites 
ci-dessus 


Ôug Z vp (OP + Êd) + ve (vEÔP + Êd) (|| de |[z/|| di lle). (16.7) 


Ici uw, est déjà une pseudo-solution normale du système (16.1). 
Sa précision dépend dans une mesure notable de la relation entre 
Il d, [ls et || d Ils, c’est-à-dire du degré de l'accord entre la matrice 
et le second membre du système initial. 

Les estimations (16.6), (16.7) sont obtenues pour des perturba- 
tions assez petites par rapport au nombre singulier non nul minimal. 
Elles permettent d'avancer l'hypothèse que, dans le cas le plus 
général aussi, un choix convenable de l'indice k approchera assez 


bien la projection u, de la pseudo-solution normale u, du système 
exact (16.1). Voici la justification de cette hypothèse. 


Désignons par A, l'erreur totale u, — ux et mettons-la sous la 
forme 
Lo — Un = (Uy— U) + (ux —Ux). 


La différence u, — u, est évaluée facilement compte tenu de (16.4); 
quant à la différence u, — u,, elle est instable à la perturbation et 
son estimation impose l’utilisation des renseignements supplémen- 
taires sur le problème exact. C’est pourquoi, tout en examinant 
le système (16.1), considérons le système qui lui est associé d’après 
(9.8), (9.9): 


(P*P}v = P*a, 


Si v, est sa solution "normale, la comparaison immédiate de ce systè- 
me avec (16.1) montre que 


Il Uo— ux Île < PÊ+1 [lo (fe. (16.8) 
Dans le cas où le système (16.1) est compatible, on a 
I & Île <PR+4 |] Vo [ze (46 9) 
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Supposons pour simplifier que p, = 1 et que les données d'entrée 
du système (16.1) soient fournies avec une petite erreur absolue 
d'ordre &. Alors (16.4), (16.8), (16.9) entraînent que dans le cas 
de la compatibilité du système exact, la norme du terme principal 
de l'erreur totale A, est bornée supérieurement aux constantes près 
par la fonction de la forme 


PAIE + Ph, (46.10) 


et dans le cas contraire par la fonction de la forme 


LA e 
PAZ Ge PH (16.11) 


En minimisant les seconds membres de (16.10), (16.11) par le choix 
de l'indice k correspondant, on peut déterminer celle des projec- 


tions Up qui s'approche le mieux de la pseudo-solution normale u,. 
La précision ainsi acquise est décrite par le 


Lemme 16.1. e < (4n) ! et une collection quelconque des 
nombres pr, où 1=p>p2Z .-.-. ZPn > Pn+1 = 0, donnent lieu 
aux relations 

min 
1SRkÇEN Cecve — PR+1 


+ ph+1) <3(ne)2/ (16.12) 


min a —— 
iSREN er — PR+1) PA 


+ plie) <4(ne)t2. 


Démonstration. Considérons le segment [c/2, c], où 
0<c<1. Il compte pas plus de z7 nombres de p;,, Po, - + ., Ph; 
il existe donc un autre segment [œ, Blavec 2<a<B<cet 
B—aœ > c/2n, qui ne comporte pas à l’intérieur de nombres singu- 
liers. Choisissons comme p,; le nombre singulier le plus proche de $ 
et qui n’est pas plus petit que lui. Alors 


Pa—PruZC/2n, PRE  Pru>c/2 


et, par conséquent, 
. 2ne 
min 


€ 
a —_— c2. 
1ShAÇLn PR —PR+1 + 


+pit1)< 


Supposons que c soit tel que le second membre de l'inégalité obtenue 
atteigne le minimum. Ceci donne c = (ne)! << 1 et la première 
relation du lemme est ainsi démontrée. ": a ensuite 


+pkr)< 


ee in (PR — a PR 


Le second membre est minimisé avec c Ne 1. La grandeur 
de ce minimum confirme que la deuxième relation du lemme est 
vraie. 
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Résumons. Si les données d'entrée d'un système sont fournies avec 


une précision d'ordre €, l'une des projections u, approche la pseudo- 
solution normale u, avec une précision d'ordre (ne). Si le système 
initial est compatible, alors à > 2/3; dans le cas contraire, a > 1/2. 

Il n'est pas difficile de construire des exemples des systèmes 
à distribution des nombres singuliers assurant les ordres de préci- 
sion les plus petits. Soit p, — 1 et supposons qu'il existe une certaine 
quantité de nombres singuliers nuls. Les systèmes compatibles 
atteignent l’ordre (ne)*/%, si tous les autres nombres singuliers sont 
répartis régulièrement entre (ne)!/S et zéro. Pour des systèmes incom- 
patibles, l'ordre (ne)!/* est atteint si tous les autres nombres sin- 
guliers sont répartis régulièrement entre (ne)!/6 et zéro. 

Notons que la présence de petits nombres singuliers de la matrice 
d’un système ne témoigne pas nécessairement que le calcul de Ia 
pseudo-solution avec une précision assez bonne est impossible. 
Si la matrice possède un groupe de grands nombres singuliers et si 
les autres nombres singuliers sont commensurables avec la préci- 
sion des données d'entrée ou sont plus petits, alors (16.10), (16.11) 


entraînent que l’une des projections u, approche la pseudo-solution 
normale u, avec une précision d'ordre & aussi bien pour le système 
compatible que pour le système incompatible. Ce fait est d’une 
importance capitale pour justifier la plupart des méthodes numé- 
riques de résolution des systèmes d'équations algébriques linéaires 
à matrice dégénérée. 

Si la matrice du système est une matrice carrée non dégénérée, 
la norme de l’erreur À de la solution du système perturbé est de la 
forme || À || = e/p, où p est de même ordre que le nombre singu- 
lier minimal de la matrice du système. Comme il résulte de la pre- 
mière relation (16.12), la norme de l'erreur A peut être mise sous 
la même forme également dans le cas d’un système compatible 
arbitraire ; dans ces conditions, p satisfait suivant l’ordre de dépen- 
dance des nombres singuliers et la précision des données d’entrée, 
à l'inégalité 

max {pn, (ne)!/3}<p. 
La deuxième relation (16.12) entraîne que pour un système incom- 
patible, || A || = e/p°; alors, d’après l’ordre de dépendance, 


max {Pn, (ne)/5}<p. 
EXERCICES 


1. Peut on affirmer que la projection &; pour laquelle l'erreur uy — &;, 
est Re assure la proximité asymptotique entre &; et la pseudo-solution 
normale u 

2. Déduire la formule analogue à (16.6) pour le système incompatible (16.1). 

3. Quelle est la signification d’une petite (grande) valeur de la norme de 
la pseudo-solution normale du système (9.9) par rapport au système (16.1)? 
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4. Evaluer les valeurs de || A; || minimales par rapport à k calculées d'ap- 
rès (16.10). (16.11) pour les nombres singuliers p, = k-l'etp,y = k*,1<k< n. 
Comparer les résultats obtenus avec (16.12). 

5. Montrer que les matrices T,., H,. de (16.4) vérifient l'inégalité asymp- 


totique 
| = (IQ NE + Qu 1E)1/? 
T , CE —— 
Il Tia lle, [| His le < PR —Ph+1 


6. En tenant compte de (16.4), (16.8), (16.9) obtenir l’estimation exacte 
de la norme de l'erreur totale A} qui contient tous les termes. 

7. Y a-t-il des raisons de craindre de perdre en précision de la solution du 
système par suite de l’incompatibilité résultante de l'influence exercée par 
les erreurs d’arrondi ? 

8. Evaluer les normes des résidus 


rx=Pux—d, ra=(P+Q)ur—(d+o). 


9. Soit un système exact compatible. Peut-on par le choix correspondant 
de la projection 4; assurer simultanément la petitesse des résidus et la stabilité 
du calcul de la projection ? 

10. Que peut-on obtenir à l’aide du choix de la projection 4; dans le sens 
de la grandeur des résidus dans le cas d’un système exact incompatible ? 
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La nécessité de déterminer les projections des pseudo-solutions 
et des sous-espaces des vecteurs singuliers ne se présente pas, et de 
loin, dans tous les problèmes liés à un système d'équations algébri- 
ques linéaires (16.1). Bien plus, souvent on a à calculer avec une 
précision acceptable la pseudo-solution normale. Du point de vue de 
l'étude théorique et de la réalisation pratique, il est fréquent que 
ce problème se ramène à la minimisation de la fonctionnelle régulari- 
satrice 


Da (2) = a ||u |E+ || Pu—d |fe, (17.1) 


où le nombre & => 0. De nouveau, sans limiter sensiblement la 
généralité, on peut admettre que P est une matrice diagonale com- 
posée de nombres singuliers. 

Désignons par e,, 6», ... les vecteurs de coordonnées; par 
B1, Be, - . . les coordonnées du vecteur d et supposons que les nom- 
bres singuliers p,, . .., p, soient distincts de zéro, alors que les 
autres nombres singuliers soient nuls. Si 
D 'aRERs 


+ 
k 


U = 
alors, 
t 
De (u)= À (a'| a + ljpaar — Ba |?) + a À | ax [2 + D |BD/?2 
Remi R>t p>t 


Il s'ensuit que le minimum de ®, (u) s'obtient dans le cas où les 
dernières coordonnées &;+1, Œy+e, - « . S'annulent, et lorsque chaque 
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k < t minimise l'expression 
œ | an + | paar — Br F. 
Ceci donne pour k < 1 


PRÔr 
a+pf * 


Ainsi, pour chaque & >> 0 le minimum de la fonctionnelle régu- 
larisatrice (17.1) s'obtient sur le vecteur unique 


ŒR —= 


t 
= > ee ep. (17.2) 


Pour & = 0, la fonctionnelle régularisatrice (17.1) coïncide avec 
la fonctionnelle du résidu 


Do(u) = || Pu—dIfE. 
Sa valeur minimale est atteinte sur les pseudo-solutions du systè- 
me (16.1) et la pseudo-solution normale u, vérifie la formule 


Up — Br. (17.3) 


La comparaison de (17.2) avec (17.3) permet d'établir certaines 
relations reliant uw, et u,. On a 


t 
nn — Pa __ 
Wo ee à Pa a+ pa “*° 


Pour tout &« =>0 


- <=: (17.4) 
donc 
uo—Uolle<aY, [uo—ua Île < re , (17.5) 
où 
L t 
2 LA E = 2 Se F (17.6) 


11 est clair, ensuite, que 
[ua Île < | Uo fre (17.7) 
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De la sorte, pour de petites valeurs de a, le vecteur u, peut servir 
d'approche inférieure à à la pseudo-solution normale u,. Dans ces condi- 
tions, les inégalités (17.5) déterminent la grandeur de l'erreur. 

Une vérification immédiate démontre facilement que le vecteur u, 
satisfait au système d'équations 

(P*P + &E) u, = P*d. (17.8) 


Pour & => 0, la matrice du système est définie positive. Par consé- 
quent, 

u, =(P*P+a£)"tpP*a. (17.9) 
En tenant compte de (17.2) et de (17.4), on trouve 


I de 
] Ua Île < V 2a . 


Avec (17.9) ceci traduit le fait que pour & >> 0 l’inégalité 


(P*P+@E) Pt |L< = (47.10) 


est vraie pour toutes les matrices P et les vecteurs d. Les résidus 
des vecteurs u. et u, sont liés entre eux par la relation 


t 
Pate (à (Des 22 
tel p>t 


B 1/2 
= (a D) Ta] +3I8,F ) £an+||Pu—dlls. (17.11) 


le système perturbé d' équations algébriques linéai- 
res à matrice P et à second membre d, où 


P=P+HQ, d=d+o. (17.19) 


La détermination de la pseudo-solution approchée u, d’après P et à 
perturbés conduit au système d'équations 


(P*P+aE)uc=P*d. (17.13) 
(17.9), (17.12), (17.13) permettent de tirer 
(P'P+aE)(u,—u,)=P* (Pu, — d) — P*(P*u, — d)= 
= —Q (Pu,—d)—P* (Qu, — 0). 
Par conséquent, 
Ue—Uüg =(P'P+GE) 18 + (P*P+ GE)! P'v, 
où Ô = —Q% (Pu, — d), v = — (Qu, — o). 
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Pour une matrice définie positive la norme spectrale coïncide 
avec la valeur propre maximale; il s'ensuit que [[(P*P + a£)11[|L < 
< a”! Compte tenu de (17.11), on a 


PP + ae) 1 6[1e I (PP + GE)" Île |ô lle < 
<< IPue—ds<|elen + El] Puo— à |. 
Utilisant les formules (17.7), (17.10), on trouve 


Pn._ Pa - P Q ‘ 
Ï (P*P+a@EË) 1PwvlL< TE re I 2 [2 || 7, 


Maintenant on peut évaluer l'écart entre u, et us 
uo—ue lle < I uo— ue Île +|luae Ua Île <av+ 


IL || IQ Is vo le + No [x 
PRE SN He 
Pour un certain & le second membre de l'inégalité atteint son 
minimum. Cette valeur de & assurera presque la meilleure approxi- 


mation de z, par rapport à la pseudo-solution normale exacte u,. 

Supposons que les données d'entrée du système soient fournies 
avec une petite erreur absolue d’ordre €. Si le système exact (16.1) 
est compatible, Pu, — d = 0. Dans ce cas, d'après le caractère de 
la dépendance par rapport à æ& et e le second membre de (17.14) 
est une fonction de la forme & + e + e/aæl*. Pour & = &e°/*, elle 
prend une valeur d'ordre e“*/%. Mais si le système exact ne possède 
aucune solution, alors Pu, — d=-0 et le second membre de (17.14) 
est une fonction de la forme & + e/x + e/al/?. Pour &« — £!/*° elle 
prend une valeur d'ordre e!/*. 

De la sorte, si les données d'entrée du système sont fournies avec une 
précision d'ordre e, alors, pour une certaine valeur de «, le vecteur u, 
est dans le cas de résolubilité du système initial une approximation de la 
pseudo-solution normale u, avec une précision d'ordre e*/$ et, dans le 
cas contraire, avec une précision d'ordre e!/*. 

Le paramètre «a qui assure l’approximation nécessaire de u4 
ne peut se calculer seulement d’après le système perturbé. Sa déter- 
mination impose l'obtention de renseignements supplémentaires sur 
le problème exact. 


EXERCICES 
14. Démontrer que pour toute matrice À et & > 0 on vérifie les inégalités 
I (4*4+@E)"? 49 [2,r < || À* Îl,r, 
LCA* A+ ae) 49 far <ÎÊee 


V 2a 
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2. Démontrer que les quantités z: n de (17.6) coïncident avec les normes 
euclidiennes des solutions normales des systèmes (9.9). 
3. Démontrer que la différence u, — ug satisfait à l'équation 


(P*P + @E) (P*P + BE) (ve — up) = (B — a) P*d. 


4. Supposons que la matrice d'un système possède un groupe de grands 
nombres singuliers, alors que les autres nombres singuliers sont commensurables 
aux données d’entrée près ou avec une plus petite précision. Quelle précision 
peut assurer dans ce cas le choix du vecteur à, ? Comparer les résultats obtenus 
avec les résultats correspondants du paragraphe précédent. 

5. Considérons la classe des systèmes aux quantités y, n limitées de (17.6). 
Quelle précision dans le cas du système de cette classe le plus « mauvais » per 
assurer le choix du vecteur à, ? Comparer les résultats obtenus avec les résultats 
correspondants du paragraphe précédent. 

6. Est-ce qu’il existe des systèmes sur lesquels on atteint une précision 
d'ordre e°3 ou el/2? 

7. A-t-on raison de craindre la perte de précision d’une pseudo-solution 
normale du système par suite de l’incompatibilité apparue sous l’action des 
erreurs d’arrondi ? 

8. Obtenir indépendamment de (17.14) l'estimation de la norme de la 
rturbation de la pseudo-solution normale lorsque seul le second membre 
u système est perturbé. Comparer cette estimation avec (17.14). 

9. La précision de l’approximation 4, par rapport à uw, dépend-elle de la 

distribution des nombres singuliers de la matrice d un système ? 


CHAPITRE III 


OPÉRATIONS ALGÉBRIQUES AUXILIAIRES 


Les méthodes numériques modernes de l'algèbre linéaire sont 
très variées quant à leurs schémas de calcul. Malgré cela, la plupart 
d’entre elles sont fondées sur l’exécution consécutive d’une série 
d'opérations algébriques simples, dont le nombre total est relati- 
vement petit. Ce sont en premier lieu les transformations linéaires 
des vecteurs, les transformations bilatérales des matrices, le calcul 
des matrices des transformations, etc. C’est pourquoi justement 
nous commencerons l'étude détaillée de l'influence des erreurs d’ar- 
rondi dans les méthodes numériques à partir de l'étude de ces opéra- 
tions. 

Les schémas de calcul des algorithmes étudiés sont choisis en 
général de façon qu'ils soient stables aussi bien dans le cas des 
calculs réels que dans celui des calculs complexes. Pourtant, l’analyse 
des erreurs n’est effectuée que pour le cas réel. La discussion des 
schémas des calculs complexes est analogue, il n'y a que les coeffi- 
cients numériques des estimations qui changent. 


S 18. Transformation de rotation 


Soit le vecteur a donné dans le plan Ozxy par ses coordonnées 
orthogonales u, v (fig. 18.1). Construisons le vecteur a’, en tournant 
d’un angle « le vecteur a autour du point © dans le sens opposé aux 
aiguilles d’une montre. Pour les coordonnées du vecteur a’ introdui- 
sons la notation u’, v’. Le cours de géométrie analytique enseigne 
que les coordonnées u”, uv’ sont liées aux coordonnées u, v par les 
relations 


u = ucosa —vsina, v'’—=usina—+ucosaæ. (18.1) 
Si on désigne par 7 la matrice d'ordre deux, 
coS&œ —sinœ 
T = | É (18.2) 


Sin &@ cos & 
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dans une écriture matricielle les relations (18.1) signifient que 
a" = Ta. (18.3) 


La matrice (18.2) s'appelle matrice de rotation et les transformations 
de la forme (18.3) s'appellent transformations de rotation ou rotations 
tout court; l’angle « s'appelle angle de rotation. 

La matrice de rotation est une matrice orthogonale quel que 
soit a. Mais, généralement, l’un des deux nombres cos «, 
sin a, ou tous les deux, sont des 
nombres irrationnels. C’est pourquoi, 
dans le cas général, une matrice de rota- 
tion ne peut pas être représentée exacte- 
ment sur un ordinateur, même si cos & 
et sin « sont définis par des formules 
explicites. Par conséquent, dans les con- 
ditions réelles, on aura à traiter des 


matrices 7 de la forme 


. © —S 
T = e sh (18.4) Fig. 18.1 
S 


où c, S sont certains nombres réels obtenus de telle ou telle façon. 
Notons que la matrice Z ne se distingue de la matrice orthogonale 
que par le facteur t, où t = (c° + s*)/*, et est orthogonale si et 


seulement si t = 1. 
Ainsi, dans les conditions réelles, au lieu des expressions (18.1), 


on aura à calculer les expressions 
uU'=uC—US, Vv'—=us+vc. (18.5) 


La réalisation de ce processus sur un ordinateur est parfaitement 
stable. Introduisons la notation 


fl (Ta)—Ta=f (18.6) 
et soient f,, f. les coordonnées du vecteur f. On a 
p=fl (ue) =uc (44e), 
g=fl (vs) = vs (1+e2), 
r=fl(—g)=(uc({+e)—vs({+e))(1+es), (18.7) 
m= îfl (us) = us (1+e,), 
n = fl (vc) = ve (4 + e5); | 
= fl(m+n)= (us (1+e) +vc (1+es)) (1 +80). 


Supposons d’abord que parmi.les €, il.n'y a pas de quantités 
égales à —1, c’est-à-dire tout à vérifie les estimations | e; | < 
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< (1/2) pt*!. Alors, on obtient 
IAIZGuel+lvs|) pt, AIT (us|+lvcl) pr, 
d’où il résulte que 


Nez V2rp tels. 


Si parmi £&, il y en a qui sont égaux à —1, cela signifie que les 
quantités calculées correspondantes ne dépassent pas en module 
le nombre positif minimal w, représentable sur un ordinateur. (18.7) 
peut compter pas plus de quatre nombres €; égaux à —1. C’est 
pourquoi l’estimation définitive de ||f ||£ sera de la forme 


fl V 21 #1 ]lalle +2 V20. (18.8) 


Cette formule montre comment appliquer l'analyse directe des 
erreurs à l’exploration du processus de calcul des expressions (18.5). 
Le résultat obtenu peut être interprété également du point de vue 
de l’analyse inverse des erreurs. (18.6) implique que 


(Ta) =T (a+e) (18.9) 


où e=T-1f. En prenant en considération la forme de la matrice 7 
et l’estimation (18.8), on trouve que 


Lelle 2 V2p 1 als + 2 V 27 to. (18.10) 


Ainsi, le vecteur calculé réellement d’après les formules (18.5) 
coïncide avec le vecteur calculé exactement d’après ces mêmes 
formules, mais en partant du vecteur 

y perturbé a + e, où la perturbation équi- 
valente & respecte la condition (18.10). 

Les rotations se rencontrent dans les 

algorithmes les plus variés de l’algèbre 


b linéaire. L'un des cas les plus impor- 
| tants de la détermination de l'angle « 
b est lié au problème suivant. Dans le 


z plan Oxy supposons donné par ses coor- 
données orthogonales x. y le vecteur 
non nul b (fig. 18.2). Faisons le tour- 
ner autour du point © d’un angle «a 

tel que le vecteur b’ obtenu se trouve reposant sur l’axe des 

coordonnées Oz. D’après (18.1) cela signifie que pour l'angle & on 
doit respecter la relation x sin &« + y cos « — 0. Aussi, peut-on 
considérer, par exemple, que 


Fig. 18.2 


COS & = SinŒ= — 


(18.11) 


ne en 
(234 y91/2 ° (3499) 
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Les formules obtenues ne déterminent qu’une des valeurs possibles 
de cos &. sin &. Pourtant, dans tous les problèmes de calcul numé- 
rique connus ces valeurs sont en nombre suffisant. 

Ha Le calcul direct de cos «, sin &« d’après les formules (18.11) est 
impossible si le vecteur b est nul, il est à l’avance instable si le 
vecteur b est suffisamment petit. C'est pourquoi nous effectuerons 
les calculs réels d’après les formules modifiées. Désignons z — 
— max {|xz |, |y |}. Si z = 0, posons 


cos 4 —= À, sin &« = 0. (18.12) 
Mais si 2-0, calculons x, = x/z; y, — y/z et puis 


ER in Œ — a  — 
(z?+y?)!/2 (x?+- yt)!/° 


Evaluons maintenant l'influence des erreurs d’arrondi sur les 
calculs effectués d’après ces formules. Soit z-£0 et supposons. 
pour fixer les idées, que z = | x |. Alors, 


cos œŒ 


cos & = Sign T1 sin & = 1 ; (18.13) 


1 
(+? 1°? (1+ y?) 


il est évident aussi que | y, | < 1. On a 
1=f(+)=+({+e), 
p=f(2)= 2? (1+e), 
g=f(+p)=(1+2) (1+e), (18.14) 


r= fl (gt?) = g/2 (14e), 


m=f(+)=<({+es), 


= 
nan (t)= (4) 4e) 
c = sign z- m, 
S— —n, 

en calculant par là même les éléments de la matrice (18.4). 


Indépendamment du vecteur initial b, la matrice obtenue T sera 
proche d’une matrice orthogonale. En effet, soit | ! |  w!/°; alors 
p = 0 et. sans limiter la généralité, on peut admettre que €; — 0 
pour i > 3. Dans ce cas 


Si l'on désigne 
T=1+wv, (18.15) 


6—048" 
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alors on obtient pour v l'estimation 
| v 1< w/2. (18.16) 


Mais si |!|] > «2, alors pour tout i > 2 
[ei 1Z (4/2) pt. 
Maintenant on vérifie facilement que 
[v[< (5/4) pré. (18.17) 


Compte tenu de (4.7) cette estimation inclut (18.16) et, donc, la 
relation (18.17) a toujours lieu si, certes, la matrice de rotation se 
calcule d’après (18.12), (18.13). 

Si tous les calculs sont exacts, l’image du vecteur b est le vecteur 
de coordonnées (x° + y*)/? et 0. En guise de première coordonnée 
du vecteur calculé prenons 


fl, (zr (c2452)) = 2r (c2+ 52) (He), (18.18) 


alors que la deuxième est annulée. On vérifie sans peine qu’un 
tel vecteur est l’image du vecteur 


: c . z(1+es) 
Se Fi He a à Poe 


dans le cas d’une transformation linéaire exacte à matrice calculée 
d’après (18.14). Comme nous l'avons noté plus haut, les quantités 
£s, & ne sont pas égales à —1; pour ce qui est de la quantité &, 
elle n’est pas égale à —1 du fait que r > 1, + s æ 1.Si e  —1, 
alors le vecteur (18.19) diffère du vecteur initial b de vecteur €, où 
ee 
Île Île < ES pt IA 


Mais si €, — —1, cela signifie que | y | | zx | w, et c’est pourquoi, 
compte tenu de (4.7), maintenant il vient 


Il e Île < VS pt RAI (18.20) 


La formule (18.18) est un peu plus compliquée. Notons, pourtant, 
que dans les méthodes numériques elle est relativement rare. Le 
niveau général des erreurs ne change pratiquement pas si au lieu 
de (18.18) on prend fl (z) comme première coordonnée du vecteur 
calculé. 

Faisons le bilan de nos études. Ainsi, soient deux vecteurs a, b 
donnés ; d’après le vecteur b on calcule. suivant les formules (18.12), 
(18.13), la matrice de rotation 7. Si les calculs se font d’après l’al- 


gorithme (18.12), (18.14), la matrice T réellement obtenue est de 
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la forme (18.4) et se distingue de la matrice orthogonale par le 
facteur t = 1 + v, où pour v on vérifie l'estimation (18.17). La 
transformation du vecteur a à l’aide de la matrice 7 d’après les 
formules (18.5) suivant l'algorithme (18.7) ou la transformation du 
vecteur b d’après ces mêmes formules et le calcul de la coordonnée 
non nulle unique d’après (18.18) est équivalente à la transformation 
exacte des vecteurs perturbés d’après les formules (18.5). La pertur- 
bation équivalente € du vecteur a vérifie l'inégalité (18.10), celle 
du vecteur b vérifie l'inégalité (18.20) ; par conséquent, tout vecteur c, 
y compris celui qui a servi à construire la matrice 7’, vérifie l’iné- 
galité 


lelleZ V2" [lc]le+2V 20. (18.21) 


Des résultats analogues peuvent s’obtenir également pour des 
vecteurs complexes. Dans ce cas, au lieu de la matrice de rotation 
on prend dans la transformation (18.3) la matrice unitaire 7 de la 


forme 
r- [ii] 
s c 


où c, s sont des nombres complexes tels que | c [ + | s [* — 1, le 
trait traduisant le fait que la conjugaison est complexe. La condi- 
tion de l’annulation de la deuxième coordonnée du vecteur b’ — Tb 
conduit de nouveau à l’équation xs + yc = 0, d’où l’on tire la 
conclusion qu’on peut prendre comme nombres c, s, par exemple, 


(Is 8+1 71/2? Ge P+ly TE 


Toutes les recherches ultérieures reprennent, au fond, l’étude déjà 
réalisée pour le cas réel. Dans les estimations analogues il n’y a que 
les constantes numériques qui changent. 

Les transformations des matrices de rotation d’ordre deux s’em- 
ploient rarement dans les méthodes numériques, mais on utilise 
souvent des transformations des matrices de la forme 


: lcin Jcin : 
0 7 0 
COSA ... —Ssinœ ... l 
Ty= : : 5 (18.22) 
sin & . cos a . Jign 
(0 { 


G* 
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qui ne se distinguent de la matrice unité que par quatre éléments 
d'indices à, j situés à l’intersection des lignes et des colonnes. Certes, 
toutes les discussions précédentes gardent leur validité pour ces 
matrices également. Les matrices (18.22) s'appellent aussi matrices 
de rotation, et les transformations correspondantes, transformations 
de rotation ou rotations tout court. Les changements nécessaires 
pour le cas complexe sont évidents. 


EX ERCICES 


1. Démontrer que pour une matrice de rotation 7 d'ordre deux réelle- 
ment calculée la matrice 7 7* est une matrice scalaire. 


2. Démontrer que la matrice de rotation 7 d’ordre deux réellement cal- 
culée satisfait à la relation 


__ 5 
ITTe—E | + pt. 


3. Démontrer que la matrice de rotation 7 réellement calculée est asympto- 
tiquement proche de la matrice T calculée exactement. 


4. Obtenir l'estimation de l'écart | T — T7 ||. 
5. Soient À une matrice arbitraire et T',;,; une matrice de rotation réelle- 
ment calculée de la forme (18.22). Analyser la forme des matrices des perturba- 


tions équivalentes lors du calcul des produits TA et AT. 
6. Supposons que dans les conditions de l’exercice 5 on ait 


f1 (Ta54) = Tiy(A+ M), 11 (474) = (AH N) Ti. 
Démontrer qu’aux termes d’ordre &w près 


a 1/2 
MISE prit (2 L(h+am))", 


EN eZ pt (2 À (hytag) 


où a}, sont les éléments de la matrice 4. 


$ 19. Suite des transformations de rotation 


Evaluons maintenant la perturbation équivalente produite par 
l'exécution d’une suite de rotations. Examinons le vecteur n-dimen- 
sionnel z de coordonnées z,, . .., z, et la suite Ti; Ne Lise 
des matrices de rotation. Soient Ti ... Ti, les matrices 


réellement données. Nous ne nous intéresserons pas du mode de leur 
<alcul, mais supposerons qu'elles respectent toutes la condition (18.17). 
Introduisons la notation 


Zh — fl (Tien), Zo = 2; 
pour 4 < 4 < n. Il est clair que 
Zn = T3, Gr-1 + En) (19.1) 
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où ez-1 est la perturbation équivalente de la rotation à matrice 
Ti,5,- En utilisant de proche en proche la relation (19.1), on trouve 


2n= (Tiny << Tu) GHE). 


De la sorte, le vecteur z, obtenu réellement après l'exécution 
de V rotations consécutives aux matrices Ti, PRE Tin peut 
être considéré comme un vecteur obtenu après l’exécution exacte 
de ces mêmes transformations sur le vecteur perturbé z + E. L'’esti- 
mation de || E ||£ est définie par de nombreux facteurs, mais on peut 
supposer dès le début qu’elle dépendra de la forme de la succession 
des paires d’indices des matrices de rotation. 

La déduction de l’une des estimations est tout à fait simple. 
Soient Zh, - --, 21, les coordonnées du vecteur z,. D'après (18.21), 
on a 


lex lle V2p "4 (zh, +285,)/2 +2 V 20. 


Les matrices Ti, #, étant proches des matrices orthogonales, il vient 
N=-1 


IE ||E< > I] ex |[z- (19.2) 


C’est pourquoi on vérifie toujours l'inégalité 
N—1 
IElez Var S (y +2)2+2V2No. (19.3) 


De plus, ||z [le & ||z|]£; donc, 
Elle V2Np-#1] 211: +2 V 2No. (19.4) 


L'estimation (19.4) est vraie pour toute suite des matrices de 
rotation et on l'atteint presque pour certaines autres suites. Suppo- 
sons, par exemple, que le vecteur z ne possède qu’une seule coor- 
donnée non nulle en position d'indice i, et que toutes les matrices 
de rotation soient proches des matrices unités. Alors, pour toute 
suite des indices de la forme 


lis J15 ds fes ee 5 dis JN 


la norme euclidienne de la perturbation équivalente E coïncide aux 
constantes du second membre de (19.4) près. L'estimation (19.4) 
est aussi presque atteinte pour les suites 


lis Ja5 Jas Jo ++. Jn-1s Je 
et ceci si seulement toutes les matrices de rotation sont proches 


des matrices des permutations. Ces exemples montrent que l’esti- 
mation (19.4) est pratiquement inaméliorable pour toutes les suites 
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des matrices de rotation, pour lesquelles toutes les deux matrices 
voisines possèdent ne serait-ce qu’un indice commun. Nous dirons 
que les suites de cette sorte sont fortement liées. 

Dans un cas très important on parvient à obtenir une estimation 
de la perturbation équivalente E qui dépend très faiblement de NW. 
Disons que. la suite des matrices de rotation est non liée si tous les 
indices des matrices sont distincts. Certes, une suite peut être non 
liée si seulement ŸV < n/2. Pour les suites non liées, les erreurs 
produites par une transformation quelconque ne changeront pas 
pendant toutes les autres transformations. Plus même, le résultat de 
l'exécution d’une suite non liée de transformations, y compris l’ensemble 
tout entier des erreurs d'arrondi, ne dépend pas, en général, de l'ordre 
d'exécution des transformations elles-mêmes. Maintenant, au lieu de 
l'inégalité (19.2), on aura en réalité l’inégalité asymptotique 


N = 
. HER = ", : 
DEIE& Ÿ Iles 
et au lieu de la relation (19.3), on aura l'inégalité 


N—1 
RENE Z2pet0 À Gi, +) + 


N--1 
+8p#1o > (zks, + 2k5,)/2+8N me. 
=0 


Etant donné que les indices des matrices de rotation ne coïncident 
pas, et que les matrices elles-mêmes sont proches des matrices 
orthogonales, il vient 


TA + zk:, CS 24, + z° 5 


donc, 
N 


2 Gi +a,)<Ilzlié. 


Conformément à l'inégalité de Cauchy-Bouniakovski 
N—1 N-1 
2 Gt) eV NS Gi, +28,)2 
et, finalement, on trouve que maintenant, 
Elle V2p #t12]le+2V2N0. (19.5) 


Si la suite des matrices de rotation peut être partitionnée en 
groupes tels qu’à l’intérieur de chaque groupe les matrices de rota- 
tion ne possèdent pas de mêmes indices, alors (19.5) implique 


IE lleZ V2kp"#%4||2]24# 2 V 2kNo. (19.6) 
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Notons que i’exécution de toute suite de Ÿ rotations peut être 
interprétée comme l'exécution de Ÿ suites non liées, dont chacune 
ne compte qu'une transformation. Dans ces conditions, la perturba- 
tion équivalente globale E vérifie aussi bien l'inégalité (19.4) que 
l'inégalité (19.6). Dans le cas considéré, les deux estimations coïn- 
cident, et comme nous l’avons déjà dit, elles sont pratiquement 
inaméliorables pour des suites fortement liées. 

Pourtant, dans le cas général, l'exécution des rotations peut 
être ramenée plus que d'une seule façon à des suites non liées, ce 
qu'on voit sur l’exemple de la suite non liée elle-même. Pour obtenir 
sur la base de la formule (19.6) la meilleure estimation de la pertur- 
bation équivalente d'une suite des rotations quelconque, il faut 
déterminer le nombre minimal de suites non liées vers lesquelles 
converge la suite initiale. 

Supposons que deux matrices voisines d’une suite des matrices 
de rotation ne possèdent pas d'indices communs. Alors, si on permute 
ces matrices, le résultat des transformations ne changera pas. Si 
une suite des matrices de rotation peut s'obtenir à partir d’une 
autre suite à l’aide des permutations des matrices voisines privées 
d'indices communs, nous dirons que ces suites sont équivalentes. 
Evidemment, le résultat de la résolution des suites équivalentes 
des transformations sera le même, y compris l’ensemble tout entier 
des erreurs d’arrondi. 

Parmi les suites équivalentes entre elles, il existe une suite telle 
qu'elle se décompose en un nombre minimal de suites non liées. 
Ce nombre minimal s’appelle indice d'équivalence. I] est clair, que 
si on le connaît, on peut, en appliquant la formule (19.6), obtenir 
la meilleure estimation de la perturbation E pour l’ensemble tout 
entier des suites équivalentes. Puisque le second membre de (19.6) 
ne dépend pas des angles de rotation, l’indice d'équivalence permet 
en réalité d’évaluer la perturbation pour toutes les suites des matri- 
ces de rotation équivalentes, au choix des angles de rotation près. 

L’indice peut être calculé et mème les différentes suites comparées 
à l’aide du processus de transformation des suites elles-mêmes en 
une certaine forme canonique. 

Supposons qu’une suite des matrices de rotation est répartie 
dans la ligne de gauche à droite. Choisissons dans cette suite toutes 
les matrices dont chacune ne possède à gauche aucune matrice 
d'indices communs. Supposons qu'il y en ait S1 de telles matrices. 
Elles forment, évidemment, une.suite non liée ; à l’aide des permuta- 
tions des matrices voisines, on peut les placer toutes dans un ordre 
quelconque de façon qu’elles soient premières dans la suite donnée, 
tout en conservant la disposition relative des autres matrices. 
Choisissons ensuite parmi les matrices restantes toutes les matrices 
qui, à gauche, ne possèdènt aucune matrice d'indices communs. 
sauf les matrices du groupe retenu. Supposons qu’il y ait s, matrices 
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de ce type-là. Permutons-les dans un ordre quelconque à la suite 
des matrices du premier groupe. En poursuivant ce processus, 
réduisons la suite initiale à la suite équivalente qui se décompose 
en suites non liées de 51, 5, . .., s, matrices de rotation. 

Le nombre k est égal à l’indice d'équivalence. En effet, exami- 
nons une suite équivalente quelconque au nombre minimal de suites 
non liées. En appliquant la transformation décrite ci-dessus nous 
n’y augmenterons pas leur nombre. Supposons que les suites non 
liées se composent maintenant de r;,r»:, . . ., r, matrices de rotation 
et que !/ << k. Si une matrice quelconque ne possède à gauche aucune 
matrice d'indices communs, de telles matrices n’apparaïîtront pas 
à gauche quelles que soient les permutations équivalentes. Mais 
ceci implique que r, = s,; donc, r, = 52, etc. Et de ce fait, k = L. 

Considérons deux suites des matrices de rotation le plus souvent 
utilisées dans les méthodes numériques. Les deux suites sont dites 
cycliques et sont décrites par la même collection de paires d'indices 


1,2: 


1, n; 2,n; 3,n; .s +5 MN; 
où m << n. Dans le premier cas, la collection des paires d'indices 
est ordonnée suivant les lignes, dans le deuxième, suivant les colon- 
nes, les lignes et les colonnes elles-mêmes étant ordonnées de haut 
en bas et de gauche à droite. 

En examinant ces suites, il est difficile de découvrir une liaison 
importante entre elles. Cependant, en les ramenant à la forme cano- 
nique, on remarque que l'ordonnancement des paires d’indices 
devient le même et acquiert la forme 


, 6, 2,5; 3, 4; 
nr de ee (19.7) 
1,n;,2n—1;,3n—2;...:mnr—m+i; 
2, n; 3,n—1;:...;:mn—m +2; 
3, n;: M nm +3; 
mn; 


où chaque ligne correspond à une suite non liée. 
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Ainsi, au choix des angles de rotation près, les suites cycliques sont 
équivalentes. Comme il résulte de (19.7), leur indice est égal à m + 
+ n — 2. C'est pourquoi. d’après (19.6), les perturbations équiva- 
lentes de ces suites respectent la même inégalité 
IElRZV2(m+n—2) p#t|zls+ 

+H2(m(m+kn—2)(2r—m+1))!/20. (19.8) 

Dans ce qui suit nous utiliserons à plus d’une reprise les estima- 
tions obtenues pour l’étude des méthodes numériques les plus diver- 
ses. Pratiquement, la relation || z ||£ > © sera toujours observée. 


Dans ces conditions, les estimations deviennent plus simples. Sup- 
posons vérifiées V rotations arbitraires. (19.4) entraîne 


IE Ile ZV 2Np #4 [2 1le. (19.9) 


Supposons que la suite des matrices de rotation se compose de k 
groupes non liés. Alors, on tire de (19.6) que 


Elle < V 2kpt# || z lee (19.10) 
Pour les deux matrices cycliques on a d’après (19.8) 
Elle ZV2 (m+n—2) p#f|zlls (19.11) 
si nm <<n, et 
IElRzZV2(2r—3) p##1||z|Îce (19.12) 


sim—=n— 1. 

Les estimations obtenues confirment notre hypothèse suivant 
laquelle l'effet global des erreurs d’arrondi dépend non seulement 
du nombre de rotations, mais aussi de la succession des transforma- 
tions des éléments. Il existe des problèmes dans lesquels nous pou- 
vons, dans une certaine mesure, choisir cette succession et par là 
construire des méthodes qui seront les meilleures quant à la pré- 
cision. 

Examinons à titre d'exemple un problème bien simple. Supposons 
donnés le vecteur s de dimension n# et le vecteur de coordonnées 
e = (1, 0, ..., 0)’. Essayons de choisir une suite des matrices de 
rotation de façon que la multiplication par leur produit Ü associe 
le vecteur s au vecteur colinéaire à e, c'est-à-dire 


Us = ce. (19.13) 


Supposons qu’en positions i et j un vecteur quelconque possède 
des coordonnées non nulles. Après avoir choisi de la façon convenable 
l'angle de rotation, on peut associer ce vecteur, en le multipliant 
par la matrice de rotation T;;, à un vecteur tel que l’une de ses 
coordonnées en position à ou j sera éliminée, c’est-à-dire annulée. 
La collection cherchée des matrices de rotation déterminant la 
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transformation (19.13) peut être construite sur la base de l’élimina- 
tion consécutive de toutes les coordonnées du vecteur s, sauf la 
première. 

L'ordre d'élimination n’est pas univoque et en le choisissant 
d'une façon convenable, on peut diminuer l'influence générale des 
erreurs d’arrondi. Dans la pratique de calcul, le plus souvent les 
coordonnées sont éliminées l’une après l’autre à partir de la deuxième, 
en les multipliant par les matrices Ts, Ts, - . ., Tin- Cette suite 
est une suite fortement liée et, d’après l'estimation (19.9), la per- 
turbation équivalente E respectera l’inégalité 


IE leZV 2(r—1) 77 #4 [fs fs. (19.14) 


Maintenant, éliminons les mêmes coordonnées dans un autre 
ordre. D'abord, éliminons les coordonnées d'indices 2, 4, 6, ... 
en les multipliant par les matrices Te, Ta, Tse, - .- .- Puis, en les 
multipliant par les matrices Ts, Tsz, To 11, - - ., éliminons les 
coordonnées d'indices 3, 7, 11, ... Ensuite, éliminons les coor- 
données d'indices 5, 13, 21, . . . en les multipliant par les matrices 
Tiss To, 13 Tir, ou - - - Il est évident, qu'à l’intérieur de chacun de 
ces groupes les matrices de rotation ne possèdent pas d'indices 
communs, et le nombre total de groupes ne dépasse pas log. (27). 
Dans ce cas, on aura d’après l'estimation (19.10) 


IE le < V2 1082 (2n) pt" ||s||r. (19.15) 
Cette estimation est bien meilleure que (19.14). 


EXERCICES 


1. Examinons le vecteur s de dimension nr. Supposons qu’à chaque multi- 
plication par la matrice de rotation on élimine sa coordonnée la plus petite en 
ivaule. Supposons cacore que la deuxième coordonnée à transformer est a 
plus petite en module des coordonnées non nulles restantes. Démontrer que 
dans ces conditions, la perturbation relative E satisfait à la relation 


IE Ile <2 V2(n—1) pt [see (19.16) 


2. Supposons qu’à chaque multiplication on élimine la coordonnée la plus 
grande en module. Démontrer que maintenant la perturbation équivalente 
observe la relation 


lElle< V2(r—1)pthilslg. (19.17) 


3. Comparer entre elles les estimations (19.14)-(19.17). 

4. Supposons qu'une matrice rectangulaire est multipliée à gauche (à droi- 
te) par la suite des matrices de rotation qui correspond à l’une quelconque des 
estimations (19.9)-(19.12). Démontrer que la perturbation équivalente donne 
lieu dans ce cas aux mêmes estimations (19.9)-(19.12), la norme du vecteur 
étant, certes, remplacée par la norme de la matrice. 

7. 5. RAIN de l'exercice 4 est-elle vraie pour les estimations (19.16), 
19.17) 
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6. Soit À un produit exact des matrices de rotation réellement calculées 
qui correspondent à l’une Reda des suites cycliques. Démontrer qu’il 
existe une matrice orthogonale R telle que 


IR— Re 2 + (m+n—2) y np. (19.18) 


$ 20. Transformation de Householder * 


Supposons donné dans l’espace Ozyz le plan x à vecteur unité 
normal w. Prenons un vecteur arbitraire z et transformons-le d’après 
la règle de réflexion du plan x. Si z est mis sous la forme de la som- 
me z = zx —+ y, où x est perpendiculaire à w et lui est colinéaire, 


’ 


alors le vecteur reflété z° sera de la forme: z° = x — y. 


Fig. 20.1 


La transformation z = z" est linéaire et on peut indiquer pour 
sa matrice Ü une forme explicite. Plus précisément, 


U = E — 2ww’. 
En effet, si (x, w) = 0 et y = aw, où «& est un nombre, il vient 
Uz = 2 — 2ww'z — 2ww'y = 
—= 3 — 2 (x, w) w — 2a (w, w) w = 
= z+y—2aw =rz—y—=72. 


La transformation examinée possède un analogue de dimension nr 
aussi bien réel que complexe. Soit w le vecteur unité, c’est-à-dire 
(w, w) = 1. Construisons la matrice 


U =" E — 2ww* 
et examinons la transformation 
z' = Uz. (20.1) 
Cette transformation s’appelle transformation de Householder et sa 
matrice, matrice de Householder. 


* Le terme transformation de Householder correspond au terme russe 
transformation de réflexion. 
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Dans le cas tridimensionnel réel, la transformation est ortho- 
gonale du fait qu’elle conserve évidemment les longueurs de tous 
les vecteurs. Dans le cas général, la matrice de Householder est 
non seulement unitaire, mais encore hermitienne. En effet, 


U* = (E — 2ww*}* = E — 2w**w* = E — 2wuw* = U, 
UU* = (E — 2ww*}* = E — 4äuww* + aww*ww* = 
= E — &äww* + 4 (w, w) ww* = E. 


On vérifie facilement que la transformation (20.1) laisse inchangés 
tous les vecteurs orthogonaux à w, et transforme en vecteurs opposés 
ceux qui lui sont colinéaires. 

Pour mémoriser une matrice de Householder et exécuter les 
transformations (20.1), il n’est pas du tout de rigueur de disposer 
sous une forme explicite des éléments de la matrice U. Si la trans- 
formation de Householder (20.1) se fait d’après la formule 


z'=2—2(z, w) w, (20.2) 


pour la réaliser, il suffit de connaître les coordonnées du vecteur w. 

La formule (20.2) montre une propriété intéressante de la trans- 
formation. Le vecteur w qui la détermine est colinéaire à la diffé- 
rence entre l’image et l’image anticipée. Par conséquent, il peut 
être rétabli d’après cette différence à un facteur numérique près, 
égal en module à l’unité, si, certes, la différence elle-même n’est pas 
nulle. Notons que la multiplication du vecteur w par un nombre 
quelconque égal en module à l’unité ne change pas une transforma- 
tion de Householder. 

L'une des méthodes les plus importantes de la construction 
d’une matrice de Householder est liée à son rétablissement d’après 
l’image et l’image anticipée. Supposons donnés les vecteurs non 
nuls s et e, e étant de longueur unité. Choisissons un vecteur w tel 
que la transformation de Householder correspondante associe le 
vecteur s au vecteur colinéaire e, c’est-à-dire Us — ae. La trans- 
formation cherchée est unitaire, et donc |æ | = ||s||£. Comme 
nous l'avons déjà dit, le vecteur w doit être de la forme 


w= + (s— ue), 
où p est le facteur de normalisation. On a 
Lo Ê = (s— œe, s — ae) — 2 ((s, s) — Re (s, œe)). 


Pour que la différence s — &e soit bien distincte de zéro, choisissons 
l'argument du nombre & de façon que le produit scalaire (s, œe) 
soit négatif. Alors, |p | — 2(s, s— œe). Mais maintenant on 
vérifie que 


Us=s—2(s, v)w=s— + (s, S— ae) W=S— pw = œe. 
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Le plus souvent on prend comme vecteur e l’un des vecteurs 
de coordonnée. Supposons que, par exemple, e — (1, 0, ..., O)'. 
Introduisons la notation s;, w, pour les coordonnées des vecteurs 
s, w. Dans ce cas, 


a—=—|a| ET , P2=2(|af+l|al.|s|) 
et puis, 
a+la| 1 
el I 
M= Goes tielane es M Goepplelanie, 22. 


Pour améliorer la stabilité, les calculs réels se feront d’après 
le schéma suivant. Soit | & | 0. Déterminons les coordonnées u, 
du vecteur 
= 
[a | 
et posons 
U 


nd+lmlh, vœu,  i22. (20.3) 


Si u, — 0, admettons que u,/| u, | est un certain nombre égal à l’uni- 
té en module. Maintenant, la matrice de Householder peut être 
mise sous la forme 


Ur — 


U= Eu", (20.4) 


où les coordonnées du vecteur v sont déterminées d’après (20.3) et 
y=1+]æml.-Sila]|= 0, on prend v = e, y = 1/2. Il est évident 
que toujours 0,5 < y < 2; 1< [vIlr < 2. 

Examinons les erreurs qui apparaissent lors du calcul du vec- 
teur v et du nombre y. Admettons que | & | se calcule en double 
précision, c’est-à-dire 

lal=fl(lal)=la|({+e). 


Si pour calculer | &« | on utilise l'algorithme décrit au $ 7, il 
vient 


elE pt. (20.5) 
Soit l'œ | 0; alors, on trouve 
men ()= tn, 121, 
v=({+m)=(t+lul) (A+), (20.6) 
Uy = Sign S1Ÿ, 


Ur; = U;, i>2. 
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La quantité y peut ne pas être petite, par conséquent, pm vérifie 
l'inégalité de à forme (20.5). Mais si n; = —1, cela revient à ce que 


lal<lælo. (20.7) 


Evaluons l'écart entre la matrice calculée Ÿ et la matrice uni- 
taire. Supposons que À quantités n, sont égales à —1. Soit 


ni = Fe UF 1, 
O me —1. 
On a - 
2 Ÿ (14 mi) > si (1+n;) +0 
ER LICE LS 


D'après (20.7), 18 |Zh | œ [’w?. Ensuite 
2 #A+ni)= (+ © = (+ n) la, 
où n satisfait à l'inégalité de la FRERE (20.5). Il s’ensuit que 
(u, u)=1+v, |v| S2p #1. 
Maintenant on trouve 


a N' 2 
@, D) Ma ke =, + ubrv 
Ÿ Ÿ Ÿ 
. 1— ul 
Mur: ba HET œ 2+(2{ulu+ —— Er ES TAE 
Puisque 0 <|wl|<1 : v, alors, compte tenu des estimations 
de u, v, _. obtient 
2 ln Sax {v, Qu++) pit 
Ur 
Donc, 
Eu =2+6, 16] <2p"1. (20.8) 


La matrice de Householder calculée 
Ü—E— 15% 
Ÿ 


est toujours une matrice hermitienne. On vérifie aisément que ses 
vecteurs propres sont vet tout vecteur orthogonal à a Tv, et ses valeurs 
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propres, le nombre — (1 + 6) et 7 — 1 fois le nombre +1. Dési- 
gnons par Ü la matrice unitaire possédant les mêmes vecteurs propres, 
alors que ses valeurs propres sont respectivement le nombre —1 


et r — 1 fois le nombre +1. Si Ü — Ü + À, alors À est une matrice 
hermitienne de rang 4 et sa valeur propre non nulle unique est 
égale à —6. Tenant compte de l'estimation de 6, nous tirons que 


IAI<2p" *! (20.9) 


aussi bien pour la 2-norme que pour la norme euclidienne. Il en 
résulte, notamment, que 


1—2pr#3 I |L, O4 11e L1 + 2pri#4, (20.10) 


Examinons maintenant l'influence des erreurs d’arrondi sur le 
processus de la transformation de Householder. Supposons que cette 
transformation se réalise d’après la formule 


Ur, 
Y 
Admettons que le calcul de (z, v)/y utilise les opérations d’accumula- 
tion. On a 
r= fl: ((2,0)/v) = (2, v}/v) (4 +0), 
ki=fl(u)=rn (tv), i>1, (20.11) 
Z=fl(a—k)=(a—kh)({+r), i>1. 


Ici, z; sont les coordonnées du vecteur z; z;, les coordonnées du 
vecteur calculé Uz. Introduisons la notation 


fl (Üz) —Uz = f. (20.12) 


Si aucune des erreurs de (20.11) n'est égale à —1, des calculs peu 
compliqués tenant compte de (20.8) montrent que 


eu’ 


Fe <29p7 1 2 Île. (20.13) 

Dans le cas général, on ajoute au second membre de l'estima- 

tion (20.13) le terme dépendant de w. Supposons que o = —1. Alors, 
toutes les autres erreurs sont nulles et on obtient 

If Ile Z V2 o. (20.14) 

Les quantités v,, Tt;, ne peuvent pas être égales à —1 simultanément. 

Si v; = —1, alors k, — 0. Mais ceci implique 7, = 0. Ainsi, l’éga- 


lité à —1 de certaines quantités v;, Tv, fait que le second membre 
de (20.13) augmente pas plus que de V ro. En prenant en considéra- 
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tion (20.14), on conclut que toujours 
lle 2,5p 71112 Île + Vn ©. (20.15) 


Les relations obtenues permettent de réaliser l’analyse inverse 
des erreurs. (20.12) entraîne que 


fl (Üz) =Ù (z+7), (20.16) 
où t = U-1f. Mais d'après (20.10), (20.15), 
Iris 2,5% 11121l8+V ro. (20.17) 


Dans les calculs exacts, l’image du vecteur s qui a servi pour 
construire la matrice de Householder est le vecteur s’ — œe. Dans 


les calculs pratiques, le vecteur 5’ s'obtient non pas à partir des 
formules (20.11), mais en admettant que 


s = fl (Üs) = —sign s, |@| e. (20.18) 
Soit 
fl (Us) =Ù (s+p), 
où p est la perturbation équivalente. Evaluons la norme du vecteur 0. 


Le vecteur s + p est l'image anticipée du vecteur s’ dans une 


transformation à matrice Ü; c'est pourquoi, s + p — Ü-1s'. Mais 
on vérifie sans peine que 


Ü1=E a UV’, 
(v, v)—Y 
ou, en tenant compte de (20.8), 


’ Psp Pr 


DE 1 57, 
Y (1+ 6) 
Par conséquent, 
nn C0. 20.19 
s+p sign S, [@| (e TES U ) x ( ) 
Introduisons la notation s, + p, pour les coordonnées du vecteur 
s + p. (20.6), (20.9) permettent de trouver que pour i > 2 
0 — sign sl@loivs _ lalu _ si Er , 
Ensuite, 


_ ans) +sign s (GI + fs1l (+ m)) un + 1&16) 
= 1+ 0 | 
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Maintenant on obtient l'estimation 
2,5p*1lsil, si W#—1, 
1 z{ 


[ælo, Si = —1À, 
pour à > 2, et l'estimation 
| z| (2,5l&|—1s11) pr", si mé—1, 
Pal 2,5[a|p""*1, S Mm——1, 


pour à = 1. Ces estimations entraînent que toujours 
[Le le<2,5 V2 p%411s Île (20.20) 


EXERCICES 


1. La matrice unité est-elle une matrice de Householder ? 
; 2 Lesquelles des matrices diagonales sont-elles des matrices de Househol- 
er? 
& ee Démontrer que le déterminant de toute matrice de Householder est 
al à —1. 
4. Montrer qu’une matrice de Householder Ü réellement calculée vérifie 
la relation 


NUU*—E |: <éprt. 


5. Soient v et y le vecteur et le nombre déterminant la matrice de House- 
holder (20.4). Démontrer _. 


Ÿ = 


+ me] =2. 
Ÿ E 

6. Démontrer que les valeurs propres de la matrice E + vu* sont égales 
à +1, à l'exception de la valeur propre nulle. 


7. Démontrer que la multiplication du vecteur z par la matrice £ — F5 vu* 
conserve l'estimation (20.15). 


8. Peut-on en multipliant un vecteur par la matrice E 7 vu* réaliser 
l'analyse inverse des erreurs ? 


$ 21. Suite des transformations de Householder 


Le calcul d'une suite des transformations de Householder fai 
partie de nombreuses méthodes numériques de l'algèbre linéaire 
A cet effet, la transformation porte presque toujours non pas sur 
toutes les coordonnées du vecteur, mais seulement sur certaines 
d’entre elles. 

Examinons le vecteur z et construisons la transformation de 
Householder qui porte seulement sur les coordonnées en positions 
l1s dos + + +) à. Sans limiter la généralité, on peut admettre que ce 
sont les dernières coordonnées du vecteur. En effet, soit P une 


7—-048% 
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matrice des permutations telle, que toutes les coordonnées devant 
subir la transformation sont les dernières coordonnées du vecteur 
Pz. Si U est la matrice cherchée, on vérifie aisément que 


Uz=P(E + (PL) (Pv)*) (P2). 


La matrice entre grandes parenthèses est également une matrice 
de Householder et la multiplication par cette matrice du vecteur Pz 
ne transforme que les dernières r coordonnées de Pz. 

Ainsi, supposons que la transformation de la matrice U porte 
sur les dernières r coordonnées du vecteur z. Mettons les vecteurs z, v 


sous forme de blocs: 
z' v’ 
D — FR — 
z° 9 v” ? 


, v” sont de dimension r. Etant donné que 


LA 


où les vecteurs z 
Ze V 
Uz—=2— GE v) V, 
Ÿ 


pour ne transformer que les dernières r coordonnées du vecteur Uz 
il faut et il suffit que v’ — 0. Mais, dans ce cas, la matrice U aura 
la structure suivante 


TE . 0 È 


U — e . +. ee ee ee ee ee : 21.1 
0 : E——v'v" ) 


La matrice de l’angle inférieur à droite est une matrice de Hou- 
seholder d’ordre r. Le vecteur v” et le nombre y qui la déterminent 
se calculent seulement d’après les coordonnées variables du vecteur z. 
Dans tout ce qui suit, nous allons entendre en réalité par transfor- 
mation d’une partie des coordonnées la multiplication d’une matrice 
de Householder de la forme (21.1). Toutes les estimations des erreurs 
obtenues auparavant restent valables si, certes, on remplace Ja 
norme du vecteur z par la norme du vecteur z” et le nombre x par 
le nombre r. Mais comme ||z" [|£g < ||z || et r << », les estimations 
antérieures restent en vigueur sous leur forme initiale aussi. 

Supposons maintenant que le vecteur z soit soumis à VW trans- 


formations de Householder à matrices U,, ÜU., ..., UN. Nous ne 
nous intéresserons pas ici au mode de calcul de ces matrices, mais 
admettrons que les estimations (20.8), (20.16), (20.20) sont observées. 


Introduisons la notation z, = fl (ÜU,z,_;) pour tout k; de plus, 
zo — Z. Il est manifeste que 

2x = Ün (2h-1 + Ta), (21.2) 
où T:-1 est la perturbation équivalente de la transformation de 
Householder à matrice U,. En appliquant de proche en proche la 
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relation (21.2) et en tenant compte de la proximité des matrices Ü, 
par rapport aux matrices orthogonales, on obtient 


2n=(Ün ... Ü,)(24+T), 


ie 


IT IE< pa Il Tx Île. (21.3) 


Nous voyons de nouveau que le vecteur z, obtenu réellement 
après l'exécution de N transformations de Householder successives, 
peut être considéré comme un vecteur obtenu après l'exécution 
exacte de mêmes transformations sur le vecteur perturbé z + T; 
de plus, la perturbation équivalente T respecte la relation (21.3). 


Les matrices Ü, étant proches des matrices orthogonales, il vient 
zx Île = Vz Île. 


Si aucune des matrices U,, ..., Ü N ne se construit suivant les 
vecteurs Z9, .« - -, Z2xy-1, alors, d’après (20.16), 


IT IL <2,5Np# 11e +N Vro. (21.4) 


Nous recourrons assez souvent à la suite des matrices U,, ..., U\, 
dont l’une se construit suivant l'un des vecteurs z,, ..., zx 1. 
Dans ce cas, compte tenu de (20.20), nous obtiendrons 


IT Ile (2,5 V2+2,5 (N—1)) pt [ze +(N—1) Vro. (21.5) 


A l’exception des cas particuliers, le vecteur z à transformer 
ne sera pas petit. C’est pourquoi on peut admettre que la relation 
I z [| > w!% est observée. Dans ce cas, au lieu de l’estimation (21.4), 
on aura 


IT Ie <2,5N pt 112 Île. (21.6) 
Pour N:>3, l'estimation (21.5) est remplacée par l'estimation 
= 2,5 V2+5 re 
ITS ÉSVIES Np#t||zlle. (21.7) 
EXERCICES 


1. Supposons que la matrice 4 soit prémultipliée par la suite de N matrices 
de Householder. Démontrer que la perturbation équivalente M satisfait aux 
termes d’ordre « près à la relation 


I M Le & 2,5Np-t#1] 4 (lg. (21.8) 


. Démontrer que la relation (21.8) reste valable aussi bien dans le cas où 
la D A est prémultipliée par N matrices de Householder, que dans celui 
où elle est postmultipliée par ces matrices. 


,° 
L 1 
1" ; 
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3. SoitiW le produit exact de N matrices de Householder calculées réel- 
lement. Démontrer qu'il existe une matrice orthogonale W telle que 


IW—W |e S2Nprtn (21.9) 


$ 22. Comparaison de la précision des transformations 
de rotation et des transformations de Householder 


En observant les estimations (19.9), (21.7), on peut avoir l’im- 
pression que les propriétés des transformations de rotation et des 
transformations de Householder sont analogues du point de vue 
de l'influence des erreurs d’arrondi sur le processus de calcul. Or, 
cette conclusion serait prématurée. 

Si une matrice de Householder est de dimension nr, dans le cas 
général sa transformation porte sur nr coordonnées du vecteur. 
Quant à la transformation de la matrice de rotation, elle ne porte 
que sur deux coordonnées. C'est pourquoi, en règle générale, une 
transformation de la matrice de Householder est plus riche en con- 
tenu et pour la résolution d’un même problème, le nombre néces- 
saire de transformations de Householder est bien plus petit que 
celui de rotations. 

Nous avons déjà eu une situation analogue lorsqu'il fallait 
construire une transformation unitaire associant le vecteur s donné 
au vecteur colinéaire par rapport au vecteur de coordonnée e. Si la 
dimension des vecteurs est nr, pour résoudre ce problème, il faut 
effectuer une transformation de Householder ou (7 — 1) rotations. 
Cette relation entre le nombre nécessaire de transformations de 
Householder et le nombre de rotations est typique. 

Toutes ces considérations ne signifient pas que. lorsqu’on résout 
le même problème algébrique imposant un grand nombre de trans- 
formations du vecteur, la relation entre le second membre de l'esti- 
mation (19.9) et le second membre de l'estimation (21.7) sera tou- 
jours une quantité d'ordre #7. En étudiant la suite des rotations, 
nous avons vu que l’estimation totale des erreurs subit non seule- 
ment l'influence du nombre de transformations, mais aussi celle 
de la suite choisie des indices des matrices de rotation. 

Il est parfaitement possible que pour la résolution du même 
problème on peut utiliser des suites des matrices de rotation diffé- 
rentes. C'est pourquoi avant de comparer la précision des rotations 
et des transformations de Householder, essayons d'établir le niveau 
minimal éventuel des erreurs dans ces opérations. 

Considérons l'exemple hypothétique suivant. Supposons que 
toutes les matrices de rotation soient tellement proches des matrices 
unités que chaque opération sur les coordonnées du vecteur n'est 
équivalente qu'à l'arrondissement des coordonnées. Soient W rota- 
tions à effectuer sur le vecteur z de dimension nr. Désignons par 
Z1s + - -, Zn SeS Coordonnées ; par Zx,, . .-., Zx,, les Coordonnées du 
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vecteur obtenu après l’exécution de V transformations. Alors, 


2nm=z(i+ef) ...(1 + ep). 


Ici, V;, est le nombre de AE Me ADN MREE a participé 
la coordonnée en position i. Par hypothèse, | e | < (1/2) p-+1 


pour tous les i, j. De plus, 


» Ni=2N, 
ii 


et nous avons 


IE ll 1(5 Mila) pt (22.1) 


im 


Bien que les hypothèses émises sur les rotations ne correspon- 
dent pas tout à fait à la réalité, la relation (22.1) de la perturbation 
équivalente E ne se distingue de la relation réelle que par le facteur 
constant du second membre. 

Quels que soient les nombres W,, la classe «les vecteurs z à valeur 
donnée de la norme euclidienne vérifie l’'inftgalité 


ñn 
1 
(© M 2zl2) 2< <max Nill#|le. (22.2) 


I1 est clair que le second membre est minimisé lorsque pour tout à, 
N, = 2N/n. Puisque l'inégalité (22.2) est susceptible d'être atteinte, 
les estimations des erreurs pour les ordres de transformation des 
éléments différents ne peuvent être meilleures que l'estimation 


Ella p#1||z|le, (22.3) 


où «& est une certaine constante. 

Si l’estimation d’une suite des rotations quelconque se distingue 
de (22.3), cela signifie qu'elle est exagérée ou dépend sensiblement 
des angles de rotation. 

Examinons de ce point de vue les résultats de l’étude de l'in- 
fluence exercée par les erreurs d’arrondi, obtenus au $ 19. L'estima- 
tion (19.9) n’est pas une estimation de la forme (22.3), elle est pire 
de n fois environ. Mais comme nous l’avons déjà noté, cette esti- 
mation est presque atteinte pour certaines suites fortement liées. 
Par conséquent, pour ces suites, la perturbation équivalente globale 
doit dépendre dans une grande mesure des angles de rotation. 
D'autre part, les estimations (19.11), (19.12) des suites cycliques 
sont de la forme (22.3) et de ce fait exceptionnellement efficaces. 

Résumons. Lors de l’exécution de N rotations il existe des ordres 
de transformation des coordonnées tels que la perturbation équiva- 
lente satisfait à la relation (22.3). Certainement, la question reste 
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où [IN/||& a (œ + B)p‘*1]| À ||£z. Cette même estimation est 
également vraie pour le cas où les transformations à droite sont 
suivies par les transformations à gauche. 

Or, la plupart des algorithmes numériques à transformations 
bilatérales sont organisés de façon différente. Plus précisément, dans 
les cas courants, les transformations ne se réalisent pas successive- 
ment d’un côté, mais avant chacune d'entre elles ou avant certaines 
d’entre elles on réalise une ou plusieurs transformations de l’autre 
côté. 

En déduisant les estimations des normes des perturbations 
équivalentes produites par le calcul d’une suite des rotations unila- 
térales, on a tenu compte des relations fines entre les résultats des 
calculs intermédiaires. À première vue il semble que l'exécution 
entre deux rotations des transformations de l’autre côté peut com- 
promettre ces relations. Mais notons, qu'en réalité, par exemple dans 
les transformations à gauche, il n’y a que les sommes des carrés 
des modules des éléments des lignes de la matrice qui apparaissent 
comme résultats intermédiaires. C’est pourquoi, si entre deux rota- 
tions à gauche, on inclut une transformation unitaire à droite ou 
même une suite des transformations unitaires à droite, les sommes 
mentionnées ne changent pas. 

Par conséquent, le changement de la succession des rotations 
bilatérales (à droite et à gauche) ne change la majoration totale 
de la norme euclidienne de la perturbation équivalente que dans 
les termes de deuxième ordre de petitesse. 

Des raisonnements analogues montrent que cette même conclu- 
sion est aussi vraie pour le changement de la succession des trans- 
formations de Householder bilatérales. 

Rappelons que nous avons évalué l'effet global de l’influence 
des erreurs d’arrondi par la grandeur de la norme de la perturbation 
équivalente lors des transformations avec des calculs imprécis des 
matrices de rotation ou de Householder. Dans ces conditions, l’écart 
entre les matrices calculées et les matrices unitaires n'avait pratique- 
ment aucun rôle important. Dans l’étude des méthodes numériques 
de résolution des systèmes d’équations algébriques linéaires nous 
tomberons presque toujours dans cette situation. 

Lorsqu'on étudie les transformations de similitude, l'écart entre 
les matrices de transformation et les matrices unitaires devient 
important. Supposons que la matrice À subit la suite des transfor- 
mations de similitude aux matrices unitaires Q,, ..., Q,. Puisque, 
pour les matrices unitaires, la matrice inverse coïncide avec la 
matrice adjointe, cela signifie qu’on cherche une certaine matrice 


B=0Q% ... 0140, ... Q.. 
Les matrices @,, ..., Q., réellement obtenues ne seront déjà pas 
unitaires. Donc, en taute rigueur, nous idevrions [calculer la 
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matrice 


sm 


B=Q;... 40, ... Q.. 


Mais Q1!, ..., Q;! ne peuvent être déterminées exactement ni dans 
le cas des matrices de rotation, ni dans celui des matrices de House- 
holder. C’est cette circonstance qui nous oblige de nous limiter 
au calcul de la matrice 


B=tf1(Q: ... O*AQ, .… Qi). 


Dans toutes les transformations examinées, pour une certaine pertur- 
bation équivalente M, 


11(Q7 ... OtAQ: ... Os) = Qt... O7 (A+M)Q ... Q:. 


Maintenant, montrons que 


Ÿ® .. Q*(A+M)OQ, .…. Q,=0 ... Qr1(4+A)0, ... Q, (23.3) 


et donnons l’estimation de la norme A. 
Postmultiplions les deux membres de l'égalité (23.3) par les 


matrices @:1 ...@51, ce qui donne la relation 
O1... QrrA— (0% ... Q— O1... Gr) A+: ... O*M. (23.4) 


Les matrices de la transformation étant proches des matrices uni- 
taires, 


IA Ile <I(Q* ... 0? —@ ... 0) Alk+IIMIle. 


C'est pourquoi l’estimation de la norme À se ramène, au fond, à 
l'estimation de la norme du premier terme de (23.4). 
I1 n’y a que des transformations de Householder qui présentent 


une certaine complexité pour l'étude. Soient 7 la matrice de rota- 
tion d'ordre deux calculée et c, un vecteur; il vient 


Tic T*(cH(TAT-AI—E) 0). 
En tenant compte de (18.15), (18.17), nous tirons la conclusion que 


IT+-AT I EL pt. 


Par conséquent, si on introduit la notation 


T-ic=T*(c+e), (23.5) 
on a 


D t+ 
lels<+p "Ile lee (23.6) 


Supposons maintenant, que @,, ..., Q, est la suite calculée 
des matrices de rotation dont les indices changent, par exemple, 
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dans un ordre cyclique. Examinons plus attentivement l’expression 
O5: ... Q1'A. D'après (23.5), la prémultiplication successive de a 
matrice À par les matrices @ï!, ..., O;1 peut être interprétée 
comme la multiplication par les matrices Q?, ..., Ÿ* avec l'apport 
de certaines erreurs. Mais ces erreurs se forment, aux coefficients 
numériques nrès, d’après la même loi que les erreurs d’arrondi lors 


de la multiplication par la suite @?, ..., @*. C'est pourquoi, en 
utilisant l'analyse des erreurs du $ 19, on trouve que 


Gs ... Q'A—0E... OUA+V), 
où, d'après (19.12), en remplaçant (18.21) par (23.6), on a 


—, 5 " 
VIE (27 —3) P#1|| Alle. 
Mais cela revient également à ce que 
NQ ... GG... GA) AIS (2n—3) pl Alle (23.7) 


D'une façon analogue on obtient les estimations pour d'autres 
suites des matrices de rotation. 


L'étude des transformations de Householder se fait suivant le 
même schéma. Si Ü est la matrice de Householder calculée et z. 
un vecteur, alors Ü-iz = Ü* (2 + (Ü*-*Ü-1— E)z). En tenant 
compte de (20.9), on tire que 


Üs0—E |L<Apit, 


Par conséquent, si Ü-z = Ü* (2 + u), alors[|u|lre < 4P-*1Uz le. 
Si on réalise z — 1 transformations de Householder, des raisonne- 
ments analogues montrent que 


(OS tr OÙ!) ANA (n—1) p#{|| Allr. 


Maintenant il n’est déjà plus difficile d'obtenir une estimation 
complète de la norme A de (23.3), en tenant compte des estimations 
correspondantes de la norme M. Si comme matrices d’une transfor- 
mation de similitude on prend la suite des matrices de rotation 


RUE les indices changent dans l'ordre cyclique pour m = n — 1, 
alors 


AV? 
I A Ie ÉVÈES (9n—3) pt] Alle. (23.8) 
Si la suite des matrices de rotation peut être partitionnée en k grou- 


pes à l'intérieur desquels les matrices de rotation ne possèdent pas 
d'indices communs, il vient 


A NES ÉV2ES xp-664 1 A]. (23.9) 
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Et, enfin, si comme matrices de la transformation de similitude 
on prend la suite de 7 — 1 matrices de Householder, alors, dans 
ce cas, 


MANS IVÈEZ (71) p#4 1 All. (23.10) 


EXERCICES 


1. Supposons que À soit le produit exact des matrices de rotation réelle- 
ment calculées, qui correspondent à une suite cyclique. En utilisant la rela- 
tion (23.7), démontrer que 


IRR*—E|L<(5/2 V2) (mù+m—2) pet. (23.11) 


2. Démontrer que dans les conditions de l'exercice 1 il existe une matrice 
orthogonale R telle que 


IR—RIL<(S/4V 2) (n+m—2) pit. (23.12) 


Comparer ce résultat avec (19.18), (21.9). 
3. Obtenir une estimation analogue à (23.12) pour une suite des matrices 
de Householder. Comparer le résultat avec (21.9). 


$ 24. Transformations non unitaires 


La norme euclidienne et la 2-norme sont invariantes par rapport 
aux transformations unitaires; c’est pourquoi les éléments des 
vecteurs et des matrices transformés ne peuvent pas subir dans leur 
ensemble d'augmentation importante. Ce fait est d’un grand intérêt, 
puisque à chaque pas les erreurs d’arrondi sont dans l’essentiel pro- 
portionnelles aux grandeurs des éléments. Les transformations non 
unitaires ne possèdent pas de stabilité naturelle, bien que parfois les 
calculs peuvent être organisés de façon que dans une certaine forme 
bornée la stabilité ait quand même lieu. 

Examinons les matrices non unitaires les plus simples. Soient a 
et b les vecteurs de dimension nr. Par analogie avec la matrice de 
Householder, on peut construire les matrices de la forme 


V=E + ab*. (24.1) 


Si s est le vecteur à transformer, alors, maintenant, Vs = s + 
+ (s, b) a Parmi les matrices (24.1) on utilise le plus souvent 
celles où soit le vecteur a, soit le vecteur b sont des vecteurs de 
coordonnée. Le deuxième des vecteurs est ordinairement déterminé 
par l'énoncé du problème. 

Supposons que comme vecteur b on ait pris le r-ième vecteur 
de coordonnée e,. Un des problèmes de calcul numérique les plus 
importants demande de trouver d'après le vecteur s donné le vecteur 
a tel que les premières r coordonnées du vecteur s + (s, e,) a coïnci- 
dent avec les coordonnées correspondantes du vecteur s, alors que 
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les autres coordonnées soient nulles. Désignons par s,, ..., s, et 
js + - +» &n les coordonnées des vecteurs s et a. Il est évident que 
(s, e-) — S,. Par conséquent, le vecteur cherché a n'existe que dans 
le cas où 5, 0. Mais alors, il est clair que 


0 p<T, 
Su — SplSrs p>r. 


Les matrices (24.1) dans lesquelles comme vecteur b est pris 
le vecteur e,, alors que les premières r coordonnées du vecteur a sont 
nulles, s’appellent matrices du type WV,. Elles sont très fréquentes 
dans la pratique du calcul numérique. Ces matrices ne se distinguent 
des matrices unitaires que par les éléments sous-diagonaux de la 
r-ième colonne, c’est-à-dire 


(24.2) 


— 07 
4 
N, = , . (24.3) 
Rrti,r | 
Lrur 11 
de plus, 
— 1 07 
1 
Nan— | 
— Rr+y,r 
ln, r 1 


On trouve aisément aussi le produit des matrices Mi1M5° ... N>1 
Au fond, pour l'obtenir aucun besoin n’est d'effectuer des calculs, 
puisque les éléments non nuls se situent seulement dans les premiè- 
res r colonnes et coïncident avec les éléments des matrices W:;!, 
N51, ..., N;. Plus précisément, 


— Moi 4 
MN Ne) ! (24.4) 
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C'est ce même principe qui préside, certes, au calcul du produit des 
matrices V,W. e 

Supposons donné le vecteur z de dimension n; on cherche la suite 
des vecteurs 24, . .., Zr, r < n, à l'aide de la multiplication par les 
matrices N,, N., ..., N,,c 'est-à-dire 


ZR=Nayzrr 20—=7 k=1, 2, ...,r. (24.5) 


Dans les calculs réels, au lieu des matrices W,, ..., N,, on aura 


les matrices V,, ..., N,. Par ailleurs, des erreurs apparaîtront 
également lors de l'exécution des opérations (24.5). On obtiendra 


donc, en réalité, les vecteurs z,, . . ., Z,, où 
2 = fl (N k2h-) =N kZh-1 + Ma. (24.6) 


Ici, x, est le vecteur des erreurs qui apparaît par suite de calcul 
imprécis des produits V;,z,-. En tenant compte de (8.4), (8.5), 
on peut écrire que 


z,=N,N,_ . N,(z+u), 


= Vu + Nada +... NON... Nous. 


Les premières k lignes de la matrice W,, 1 < k < r, sont les 
lignes de la _matrice unité. Par conséquent, les premiers k ‘éléments 
des vecteurs z, Zn 1 et Zk coïncident. Mais, alors, les premiers k éléments 
du vecteur des erreurs u4_, sont nuls. D'après (24.4), pour tout k 
du produit Vi! ... N;1 seulement les premières k colonnes sont 
différentes des colonnes de la matrice unité. Aussi, pour tout k 


N'iN°3 ... Nu = Ly | 
d'où l’on tire que 


= À par (24.7) 


De la sorte, lorsqu’ on calcule une suite des transformations aux 


matrices N,, ..., N,, la perturbation équivalente u est liée aux 
erreurs UMh-_1 Qui apparaissent aux pas isolés par la relation sim- 
ple (24.7). 

Le calcul des matrices W, d'après les formules (24.2) n'est pos- 
sible que si s, & 0. Pourtant, il arrive que cette condition ne soit 
pas observée. Îl existe un nombre assez grand d’algorithmes où, pour 
la respecter, on recourt aux permutations des éléments. Ordinaire- 


ment, cela signifie que la matrice W, de (24.6) est remplacée par le 
produit My-Pyn, où Pr, k° > k, est la matrice de permutation 
des colonnes d'indices k et k’. Dans ce cas on a pour la perturbation 
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équivalente pu 
u= Pis Ni pot Pis Ni Por Na a+... 
... + Pis Ni Po Nr" .. PNT 


Examinons plus en détail le produit P,,-Vi! ... P,,-N3. 
Démontrons que ses dernières rz — k colonnes coïncident avec les 
dernières r — k eolonnes du produit P,,:P,+ ... Pyx. Pour 
k = 1, cette affirmation est évidente du fait que la postmultiplica- 


tion de la matrice P,,. par Ni! change seulement sa première colonne. 
Supposons qu'elle est vraie pour À — 1. Une postmultiplication 
supplémentaire par P,,. est équivalente à la permutation des colon- 
nes d'indices k et À’. En vertu de la condition k’ > k, les dernières 
n — k + 1 colonnes du produit obtenu coïncident avec les z — k + 1 
colonnes du produit P,,5P., ... Pyx. Encore une postmultipli- 
cation par Vi! modifie dans ce produit seulement la colonne d'indi- 
ce x. 

Ainsi, l'affirmation est démontrée. Comme auparavant, les 
premiers 4 éléments du vecteur des erreurs u,_, sont nuls. Par consé- 
quent, pour tout À > 1 


PuiN;! de Pr Nu = Paie PE PrrUn-1e 


Finalement, on tire la conclusion que, maintenant, 
T 
U = > P:1- .. PyrUn-1. (24.8) 


La comparaison des formules (24.7), (24.8) avec (8.5) montre 
que la perturbation équivalente des transformations examinées 
aux matrices de la forme N, ne dépend pas explicitement de ces 
matrices. Le danger d’instabilité ne peut donc se présenter que dans 
le cas où les vecteurs des erreurs 3, sont grands eux-mêmes. Nous 
avons déjà dit que les erreurs produits aux pas isolés sont propor- 
tionnelles dans l’ensemble aux grandeurs des coordonnées des vec- 
teurs. C’est pourquoi il importe justement que ces coordonnées 
soient petites au possible. Cette tâche est remplie par le choix con- 
venable des matrices des permutations. L'analyse détaillée des 
vecteurs y _, Sera donnée un peu plus tard, après la description des 
processus de calcul qui conduisent aux transformations des matrices 
de la forme .. 

Examinons encore une forme des transformations non unitaires. 
Supposons maintenant que le vecteur de coordonnée e, est pris 
comme vecteur a de la matrice (24.1). Dans ce cas, la matrice (24.1) 
se distingue de la matrice unité seulement par la r-ième ligne. Les 
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matrices de ces formes les plus importantes sont 


_ 0 
M 1 : 24.9 
| My... Mr px À , (24.9) 
4 
de plus, 
1 0 
: | 
ÉtE — My —M,, 7-1 1 
4 


Supposons qu’on donne encore le vecteur z de dimension x et 
qu’il faut chercher la suite des vecteurs z,, . .., z,, r > n, à l’aide 
de la multiplication par les matrices M,, M;, . .., M,, c'est-à-dire 


Zx=Mhznus A1=2% k=2, 3,...,r. (24.10) 


Portons l'attention sur une différence notable entre ce processus 
et le processus (24.5). Si les À premières coordonnées du vecteur zx 
de (24.5) coïncident avec les coordonnées correspondantes du vecteur 
Zr-1, alors le vecteur z, de (24.10) se distingue de z,_, par la seule 
k-ième coordonnée. Cette coordonnée est la somme des produits 
deux à deux de certains nombres; pour son calcul il est donc commode 
d'appliquer le régime d’'accumulation. 

Si la détermination des matrices M, impose certains calculs, 
le processus numérique réel sera décrit par les relations 


ZR = fl (M xZh-1) a M kZh-1 + Va-1e 


Cependant, quelle que soit k, la seule k-ième coordonnée du vecteur 
vr -, Sera distincte de zéro. Certes, là encore 


2 = M... … Mi(a+, 


v= Ma + MM. MONS... Mas, a. 
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Le produit M5! ... M! est lié d’une façon simple à ses fac- 
teurs. On vérifie sans peine que, d’une façon analogue à (24.4), 


4 0 — 
re 1 
MSM; ps M = — My M2... : 1 F 


L 1 


Le produit M,M; ... Mn se construit aussi suivant ce même 
principe. En tenant compte de la forme des vecteurs v,_,, on obtient 
que pour tout 


MM: Ho Ma Vi = Vh_1: 
donc, 
LA 
v= À vu (24.11) 
k=2 
Bien que la formule (24.11) ressemble extérieurement à (24.7), 
elle doit présenter un plus grand intérêt du fait que la structure 
des vecteurs v,_, est sensiblement plus simple que celle des vecteurs 
ux_. Ceci autorise à espérer que dans les algorithmes de calcul 
numérique qui utilisent les transformations des matrices de la 
forme WM,, on peut atteindre une précision élevée. 


EXERCICES 


1. Démontrer que 
1 
(EHab*ÿ1=E Ta, d) ab*. 


2. Démontrer que 


lelelole \-{ 
(+ EE) <IE+a te <1+] ele 0 lee 


3. Calculer les valeurs propres et les vecteurs propres de la matrice £ + ab*. 
4. Démontrer que les matrices de la forme (24.3) vérifient les relations 


NiiVa eee NR=Ni+Not + NR—(k—1) E, 
NTINS .. Nil (RH) E—Ni— Na — Ne (24.12) 


5. Les relations (24.12) seront-elles observées si les facteurs des premiers 
membres sont pris dans un ordre différent ? 

Soit i1, is, - . ., & une permutation quelconque des nombres 1, 2, ... 

..., r qui Se distingue de la permutation normale. Au lieu des transforma- 
tions (24.5) examinons les transformations 


2R=Nipshis 230=2% k=1,2, ...,r. 
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PAIN que dans le cas d’un vecteur z arbitraire la formule (24.7) n’a déjà 
pas lieu 


s. Fa ueE les analogues des exercices 4 à 6 pour les matrices de la for- 
me ( ) 


$ 25. Orthogonalisation 


Le processus d'orthogonalisation d’un système de vecteurs fait 
partie de nombreuses méthodes numériques; nous allons donc exa- 
miner plus en détail la recherche des erreurs auxquelles cette métho- 
de donne lieu. 

Supposons donné un système linéairement indépendant de vec- 
teurs @y, Ge, . . ., 4. Construisons un système de vecteurs ortho- 
normés b,, bo, . .., bd, tel que pour tout k = 1, 2, ..., n les 
vecteurs b,, b., . ._ soient base du sous-espace P;, tendu sur 
Gi Gas ss 5 0h Puisque les vecteurs b, sont normés, on peut les 
mettre sous la forme 


1 
bg = tv 25.1 
Tale À Ci, 
OÙ Uyy Vos « «+ Un eSt une base de P, orthogonale mais pas forcé- 
ment normée. Pour À — 1 posons v, = a, et cherchons +, comme 
combinaison linéaire des vecteurs a;+,, b,, . .., b4, c’est-à-dire 
k 


Up+1 = ŒR+1 + 2 Cib4. (25.2) 


La condition d’orthogonalité du vecteur v,+, par rapport aux vec- 
teurs 21, ..., Ur, OU, Ce qui revient au même, par rapport aux 
vecteurs b,, . .., b., donne 


Ci = —(Gh#1s Di) ; (25.3) 
aussi, trouve-t-on finalement 


Up+1 = CH — D (an+1s 01) di. (25.4) 


Les erreurs d'’arrondi qui apparaissent lors de la réalisation 
numérique du processus d’ orthogonalisation modifient les propriétés 
du système de vecteurs b,, ..., b, à obtenir. Plus précisément, 
ce système ne sera déjà plus au sens exact équivalent au système 
Es - + n et ne sera pas orthonormé. 

Evaluons d’abord le degré de non-équivalence du système cal- 


— 


culé b,,..., b, au système initial de vecteurs. D'après l’idée 
ee de l'analyse inverse, essayons de montrer que le système 
b,, ..., br est pour tout k équivalent au système perturbé a, + 
+ Es - .., Ax + Er et calculons les normes des perturbations 
équivalentes £,, . .., Ep. 


8—048: 
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Introduisons certaines notations. Désignons par P, les sous- 
espaces tendus sur les vecteurs b,, . .., b,; par ay;, b;,, respective- 
ment les coordonnées des vecteurs a;, b,, etc. 

Considérons le processus de calcul du vecteur b,. Quel que soit 
le mode de calcul de la longueur du vecteur v, et quelle que soit 
l'erreur que contient cette longueur, le vecteur b, est colinéaire 
au vecteur a, si seulement la division des coordonnées du vecteur v, 
par sa longueur calculée fl (|| v, || =) est réalisée exactement. Par 
conséquent, dans Île cas considéré, la non-équivalence apparaît toute 
entière seulement dans les conditions d'une telle division. Pour 
tout j, on a 

bn=f(-———— 1 

= 1 (r) = Han A+) 
où y, Satisfait aux relations ordinaires suivant le résultat des cal- 
culs obtenu. De là il n’est déjà pas difficile d'établir que le vecteur 


d, est colinéaire au vecteur a + e, où 
_ p” 
Il 81 Île a lle+n1/2f1([uvillr) ©. 


Supposons maintenant que les vecteurs “Ba, ..., 0, sont calculés 
et que les estimations des normes pour e,, ..., €, sont obtenues 
pour un certain À > 1. Supposons encore que le vecteur b;,+, se 
calcule d’après les formules (25.1), (25.4). Quel que soit le mode 
de calcul des coefficients c,; de (25.3) et quelles que soient les erreurs 
qu'ils contiennent, le vecteur v,+, appartiendra à la somme du sous- 
espace P, et du sous-espace tendu sur a,+,, si seulement la somma- 
tion de la formule (25.2) est réalisée exactement. C’est pourquoi 
une non-équivalence supplémentaire à cette étape peut résulter 
seulement d’un calcul inexact de la somme du second membre 
de (25.2). ; 

Déterminons les coordonnées du vecteur v,+, en utilisant l’opé- 
ration de calcul du produit scalaire lors du travail en régime d’accu- 
mulation. Alors, pour so j, 


k 
Uy, k+ = fl (ay, R+1 +S © cb) = (a, ki + 3) ibn) (1 + Vi, k+1)» 


OÙ V.k+1 Satisfait encore aux relations usuelles. Cette formule peut 


se mettre sous la forme 
kR 


Uy, ni = (@ÿ, h+1 + 8j, a+1) + 2 Cjbjie 


Toi | ejn+i | OO, Si Vin+1 = —1et | ejn+i | K < (1/2) A +1 PT 
Si Via+1 7 —1. La normalisation du vecteur v,:, produit une 
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perturbation supplémentaire des coordonnées a; :+1, évaluée de la 
même façon que pour le calcul du vecteur b,. Finalement, on obtient 


que le vecteur b;:., appartient à la somme du sous-espace P, et du 
sous-espace tendu sur le vecteur a+, + €:+,. Dans ces conditions 


Len le LP ons [le +112 (1 +1 (ox) ©, 


où || v:+1 || est la valeur exacte de la norme euclidienne du vecteur 


V4; F1 (|| Ur Ils), la valeur calculée au cours de la normalisation. 

Si les calculs sont exacts, pour tout k, la norme euclidienne du 
vecteur v:+, ne dépasse pas la norme euclidienne du vecteur a,+1, 
puisque (25.1), (25.4) impliquent 


k 
(Un+as Un+1) = (Gn+1s Cn+1) — 2 (Gn+1, Oi)*. (25.5) 


C'est pourquoi, sans limiter sensiblement la généralité, on peut 
admettre que, pour tout k, [| vi+1 [le < || Gx+1 IE. Dans les problè- 
mes pratiques on traite seulement les vecteurs a;, . .., a, tels que, 
quel que soit k, on vérifie les relations 


ax lle D ©f$. (25.6) 


La condition (4.7) et les estimations obtenues ci-dessus permettent 
de faire la conclusion suivante. 

Si dans la sommation du second membre de (25.2) on utilise les 
opérations de calcul du produit scalaire en travaillant en régime d'accu- 


mulation, les vecteurs b,, ..., b, possèdent cette propriété que, pour 


tout k > 1, les vecteurs b,, ..., b, appartiennent au sous-espace 
tendu sur les vecteurs a + £1, ..., a + ex; de plus 


IENPRS a CAE (25.7) 
Si on examine attentivement le résultat obtenu, il doit nous 
paraître étonnant. En effet, pour réaliser le processus d’orthogonali- 
lation de x vecteurs de dimension », le nombre des opérations arithmé- 
siques à effectuer doit être d'ordre 2n*. Or, les seconds membres des 
tnégalités (25.7) ne dépendent pas du tout de n. Plus même, ils ne 
iont que de deux fois supérieurs à la norme des perturbations équiva- 
sentes produites seulement lorsque les mantisses des coordonnées 
des vecteurs a, sont arrondies jusqu'à £ signes. Ïl est bien rare qu'on 
atteint un résultat aussi remarquable. 
Notons que cette conclusion concerne seulement le degré de 


non-équivalence du système de vecteurs calculé b,, ..., b, au 
système de départ &a;, . . ., ün. On n’a encore rien dit sur la proxi- 
mité entre le système b,, ..., b, et le système orthonormé. 
Voyons comment les erreurs des vecteurs calculés b,, ..., D, 
interviennent dans l’orthogonalité du vecteur v,4, par rapport à ces 


g* 
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vecteurs. Supposons que 
max || — bille T, (25.8) 
1<i<R 


où t est un nombre assez petit. Des calculs peu compliqués permet- 
tent d'obtenir 


CARAELUTE AT 
Ici ô;, est le symbole de Kronecker et tous les T;, sont des quantités 


d'ordre +. Supposons que le vecteur 1::, se calcule sans erreurs 


d'après les vecteurs a+, b,, ..., b,. En vertu de (25.5), (25.8) 
on a 


Rk 
(Urirs Una) 7 = ((ansa, ant) — À (ant b)2) +0 (x). 
I1 s'ensuit pour j < k que 


k 
 — (ah+1 bp 2 (ah+1s Di) (Bu, 3) 
(CZYSE by) — = 


Tr+1, 1 — 
(Ohyrs Ure1)1/8 (Rs1 mr 
k 
DIRCT DAT St (Gh+ss bi) Tij 
EH (CT Dk+1) 12 1/2 DOS Ë 
((a+1s aRs1)— D (@ns1, b1)?) 
{m1 


D’après [1] introduisons dans la discussion l'angle {a;,+,, P,} 
entre le vecteur a, .. et le sous-espace P;. Des calculs peu compliqués 
montrent que 


k 
?, (ah41v b;}° 
COLE? {aps Pa} = —""—5#———. (25.9) 
(ass Ghe1) — D, (@hers bi) 
{m1 
Si parmi les nombres cotg* {a.+,, P,}, k > 1, il y a des nombres 
grands en module, certaines des relations 
(ahs5, Di) (25.10) 
((an+2» aps) — Ÿ (ar+1, bit) /2 
{mi 
seront également grandes en module. Par conséquent, même si 
toutes les opérations arithmétiques sont exactes, au (4 + 1)-ième 


pas les erreurs t:+,, peuvent devenir importantes par rapport aux 
erreurs T,, obtenues aux pas précédents. 
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Si nous observons la propagation des erreurs sur quelques pas 
suivants, la situation deviendra encore plus grave, car les erreurs 
initiales seront multipliées par le produit des relations de la for- 
me (25.10). Cela signifie que pour compromettre d’une façon impor- 
tante l'orthogonalité du système de vecteurs b,, . .., b,, il n'est 
pas du tout de rigueur qu’une des relations (25.10) soit grande. 
Il suffit que soit grand le produit de ces relations appartenant aux 
pas différents. 

Le schéma de la méthode d’orthogonalisation que nous venons 
d'examiner est le plus usité dans la pratique. Comme l'ont montré 
nos recherches, il assure une stabilité très élevée au sens de la petitesse 
des perturbations équivalentes, tout en étant très instable au sens de la 


conservation de l'orthogonalité du système de vecteurs obtenusb,, . .. b,. 

Pour éliminer cette instabilité nous allons déterminer d'une 
façon quelque peu différente le vecteur v,+,. La condition de son 
orthogonalité par rapport aux vecteurs calculés b., ..., 0, donne 
pour la détermination des coefficients c; de la combinaison linéaire 
(25.2) le système d'équations algébriques linéaires: 


C1 (8, b) + C2 (B2, d:) +... +0 (Pr; 8) = — (a+, bi), 
C1 (B1, bx) + C2 (B2, b)+ TOR (En, d2) mi (ah+1 b2). 


(25.11) 
C1 CA by) + C2 (B2, bz) + .. + Cr (br, bx) nd (Gp+1 bx), 
Posons vy41 — lim " où 
Dh}! = vf} 2) D (si À dj) be, DE) : —= Ap+- (25.12) 


Désignons par B la matrice y système (25.11), et par w'”, le vecteur 
= (0h41, Ds), (Uktis Be), -.., (0K44, bn))'. 


De la relation de récurrence (25.12) on tire que les vecteurs w® et 
w(®-D sont liés entre eux par l'égalité w‘® = (E — B)w%-h, d’où 
il résulte que 


Ho EE -B Eee Tr<... LITE —B 1e lu ||2. 


Si les vecteurs “Da, .., 6, sont proches des vecteurs orthonor- 
més, alors || £ — B || << 1, et la suite des vecteurs w'® converge 


vers zéro. Îl1 s'ensuit que la suite des vecteurs ” converge vers 


un vecteur v;+, Orthogonal aux vecteurs b,, .. . Par construc- 
tion, ce vecteur est de la forme (25.2). 

Ainsi, lorsque la réalisation du processus itératif (25.12) est 
exacte les erreurs dues à la non-orthogonalité du système des vec- 
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teurs CA ..., Op n'influent pas sur l’orthogonalité à ces vecteurs de 
tous les vecteurs qui suivent. 

Dans les calculs réels, les seconds membres des relations (25.12) 
ne peuvent pas être déterminés exactement ; c'est pourquoi en réali- 


té, le vecteur calculé v,,, ne sera quand même pas orthogonal aux 


vecteurs b:, .. +, bn. Admettons que les vecteurs b., ...., bLnese 
distinguent pas trop fort des vecteurs orthonormés et que ‘la condi- 
tion (25.6) est observée. Dans ce cas, pour touts, 


821 Île LI GR + Île (25.13) 


Supposons ensuite que pour calculer les produits scalaires nous uti- 
lisons le régime d'accumulation. Pour tout j on a 


DNREIONTE À Ékr1”, D) (+ nf )bu)(1+8579). (25.14) 


Ici les n% 7”, &%7” satisfont aux relations usuelles propres aux 
erreurs. (25.14) entraîne que, pour 1 << k, 


R 
(CR, di) & (v D Ért”, 1) bn di) — 
— (hi, bn" + (1), bi). (25.15) 


Dans ces conditions, les coordonnées v{:5}} du vecteur vÿ;1) sont 
associées aux quantités de ii: par les relations suivantes: 


DR = (0 RE — > Gkri”, di) by) ET. 
Introduisons la notation 
D = (1, O1), (M1, Ba) es (OR, On) < 
(25.15) entraîne l'égalité 


Din B (E — B) 0-0 + ot, 


où les coordonnées 6 1-1, 1 < I < k, du vecteur ot*-? sont les 
suivantes 


= (ri, bi) nf + (Er, bi). 
En tenant compte de (25.6), (25.13), on trouve que 


[ot [le An Île 
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On a finalement 
Lu [le LIE —B Ir 1e +110 %-2 er < 
ILE —B ||» 110%-0 [le + PE ane le < 


s—1 
<IIE—B1|E|1w |18 + plan lle 2 IE —B1È< 


Q 
Ce = 
C3 


{+10 
<ILE— BEI Ile + EE. 
L'inégalité signifie qu'à partir d’un certain s, le vecteur calculé 


x sera presque orthogonal aux vecteurs b,, ..., b,. Plus préc- 


sément, la norme euclidienne de sa projection sur le sous-espace P, 
ne dépassera pas asymptotiquement p-‘+t||a;,,{|l&. Là encore 
nous obtenons un résultat remarquable pour la précision de la métho- 
de d’orthogonalisation. C’est que l'arrondissement des mantisses 
des coordonnées du vecteur 4,4, jusqu’à £{ signes modifie à lui seul 


la norme euclidienne de sa projection sur le sous-espace P, de la 
grandeur d'ordre (1/2) p-‘"1 || a+, ||#. Le processus itératif (25.12) 
ne donne une erreur que deux fois plus grande. 

Notons que pour la réalisation pratique de la méthode d’orthogo- 
nalisation on peut presque toujours prendre s = 2. Les estimations 
des perturbations équivalentes par rapport à (25.7) ne deviennent 
alors que deux fois plus grandes. 

Le processus examiné de la correction de la non-orthogonalité des 


vecteurs calculés b,, b:, ..., d, s'appelle réorthogonalisation. D'au- 
tres modes de correction de la non-orthogonalité sont aussi possibles. 
Supposons, par exemple, que le processus d’orthogonalisation se 
fait avec s — 1, c'est-à-dire sans réorthogonalisation. Au système 
obtenu de vecteurs on applique encore le processus d’orthogonalisa- 
tion avec s — 1. Et cela se poursuit tant que le système de vecteurs 
ne devient orthogonal avec la précision voulue. Ce processus s’appel- 
le orthogonalisation séquentielle. I] n’est pas aussi efficace que le pro- 
cessus de réorthogonalisation. Dès la première réalisation de l’ortho- 
gonalisation séquentielle, les vecteurs calculés peuvent devenir 
tellement non orthogonaux, qu'il serait absurde de mener l’ortho- 
gonalisation à sa fin. 


EXERCICES 


1. Qu'est-ce qui change dans le processus d’orthogonalisation si le système 
de vecteurs initial est linéairement dépendant? 

2. Démontrer qu’il existe une transformation unitaire du système donné 
de vecteurs a,, a, ..., a telle que les vecteurs-lignes transformés composent 
une matrice triangulaire inférieure. 

3. Démontrer que lors d’une transformation unitaire d’un système de 
VOCLOUrS G1, Ge, o © + An, 188 quantités (25.3), (25.9) ne changent pas. 
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4. Soient les vecteurs a;, as, . .., a, formant les lignes d’une matrice 
triangulaire inférieure. Le processus d’orthogonalisation que représente-t-il 
pour ces vecteurs? 

5. Calculer les quantités (25.3), (25.9) dans les conditions de l'exercice 4. 

6. Dans les conditions de l'exercice 4 observer l'apparition de la non- 


orthogonalité des vecteurs calculés by, Da, - . ., bn. 

7. Dans les conditions de l’exercice 4 observer l'exécution du processus de 
réorthogonalisation. 

8. Dans les conditions de l’exercice 4 observer la réalisation du processus 
d’orthogonalisation séquentielle. 

:__ 9. Supposons que le système de vecteurs a;, &,..., an Se transforme d’après 
ls (2512) en système équivalent b,, b;, ..., b,. Démontrer que sur la classe 
de telles transformations la perturbation équivalente du processus d’orthogona- 
lisation est minimale. 


CHAPITRE IV 


DÉCOMPOSITION DIRECTE DES MATRICES 
EN PRODUITS DE FACTEURS 


La décomposition d’une matrice arbitraire en produits de fac- 
teurs permet dans de nombreux cas de ramener la solution du problè- 
me algébrique initial à la résolution successive de quelques problè- 
mes analogues, mais aux matrices plus simples. Dans ce chapitre 
nous allons étudier les méthodes directes de décomposition des matri- 
ces, c'est-à-dire les méthodes qui sont réalisées en un nombre fini 
d'opérations arithmétiques. 


$ 26. Matrices de forme spéciale 


La décomposition des matrices est fondée, en règle générale, sur 
leur transformation successive en matrices au nombre important 
d'éléments nuls. Les matrices de ce type jouissent de plusieurs pro- 
priétés spéciales. Nous allons décrire certaines de ces matrices. 


Matrices triangulaires. La matrice À est dite triangulaire supé- 
rieure (inférieure) si ses éléments a;, vérifient les relations 


ay =0, D] (> i). 


Les matrices triangulaires possèdent de nombreuses propriétés 
remarquables qui les font employer à une large échelle pour établir 
les méthodes les plus diverses de résolution des problèmes d’algèbre. 
Ainsi, pour les matrices carrées, la somme et le produit des matrices 
triangulaires de même nom forment une matrice triangulaire de 
même nom, le déterminant d’une matrice triangulaire est égal au 
produit des éléments diagonaux, les valeurs propres d’une matrice 
triangulaire coïncident avec ses éléments diagonaux, une matrice 
triangulaire est inversée sans peine et son inverse est également une 
matrice triangulaire. 

Il arrive qu’on à considérer des matrices triangulaires dont les 
éléments vérifient les relations 


ay =0 I<n+i—ÿ (ixœnr+1i1—)j). 
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Ces matrices se distinguent de celles examinées plus haut seulement 
par la permutation des lignes et des colonnes et ne possèdent pas 
de noms particuliers. 

Les matrices triangulaires aux éléments diagonaux nuls sont 
dites strictement triangulaires. 

Matrices trapézoïdales. Une matrice triangulaire supérieure (in- 
férieure) À est dite trapézoïdale supérieure (inférieure) s'il existe un 
nombre réel r tel que 


ai 0, 1<i<r, 


et toutes les lignes (colonnes) de la matrice à partir de la (r + 1)-ième 
sont nulles. 

La discussion des propriétés des matrices trapézoïdales sera plus 
simple si les matrices elles-mêmes sont mises sous une forme parti- 
tionnée. Soit 


Au TE 
A=| —— |, 


An | 42 


où À,, est une matrice carrée d'ordre r. Si À est une matrice trapé- 
zoïdale supérieure, À,, sera une matrice triangulaire supérieure non 
dégénérée, et les matrices 4, 4.2, sont soit absentes, soit nulles. 
Mais si À est une matrice trapézoïdale inférieure, À,, est alors une 
matrice triangulaire inférieure non dégénérée, et ce sont les matrices 
As, Ase qui sont absentes ou nulles. 

On établit aisément que le produit des matrices trapézoïdales de 
même nom et de même rang sera encore une matrice trapézoïdale 
de même nom et de même rang. La somme des matrices trapézoïda- 
les, en général, ne jouit pas de propriété analogue, étant donné que 
l'addition des matrices peut rendre nuls les éléments diagonaux. 

Parmi les matrices diagonales on dégage ce qu’on appelle les 
matrices trapézoïdales normalisées. Elles se distinguent par les élé- 
ments les plus grands en module qui se situent en moyenne plus près 
de l’angle supérieur à gauche. Plus précisément, si À est une matrice 
trapézoïdale inférieure normalisée, ses éléments satisfont aux rela- 
tions 


NN) 
laxnl2>max À [al (26.1) 
1>k J3h 


pour tout À > 1. Une matrice trapézoïdale supérieure normalisée 
vérifie les relations 
lanl2>max À la,/?. 
j>hk 12h 


Il en résulte, notamment, que les éléments diagonaux d’une ma- 
trice trapézoïdale normalisée se répartissent dans l’ordre décroissant 
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des modules. D'autre part, chaque élément diagonal est maximal en 
module dans sa colonne pour une matrice inférieure, et dans sa ligne, 
pour une matrice supérieure. 


Matrices bidiagonales. À s'appelle matrice bidiagonale supérieure 
(inférieure) si ses éléments a;, respectent les relations 


ay=0, j<i i<j—-1(G>ii>j+1). 


Bien entendu, les matrices bidiagonales jouissent de toutes les 
propriétés des matrices triangulaires. Pour les matrices bidiagonales 
carrées notons en plus qu'elles permettent d'indiquer des formules 
simples pour les éléments de l'inverse. Si, par exemple, À est une 
matrice bidiagonale supérieure et af7!), les éléments de À -!, on véri- 
fie facilement que 


a = 2, (26.2) 


[Tex 


Matrices quasi triangulaires. Une matrice À est dite quasi tri- 
angulaire supérieure (inférieure) si ses éléments a;,; respectent les 
relations 


d=0, i>j+1(j>i+1). 


La somme des matrices quasi triangulaires de même nom sera 
une matrice quasi triangulaire, alors que leur produit ne le sera pas. 
On trouve sans peine le polynôme caractéristique f, (À) = det (ÀE — 
— À) d’une matrice quasi triangulaire d'ordre n. Par exemple, pour 
une matrice quasi triangulaire supérieure, il peut se calculer d’après 
la formule de récurrence 


fr (À) = (À —anr)fn-1 (À) — Gn, n-1 Gh-1, à fr-2 (À) — 
— GR, h10R=1, h-20h-2, RÂR=s (À) — . 
.. — Gp, n-1@h, ke ce Goxdnfo (À). (26.3) 
Ici fo (À) = 1, f1 (À) = À — au, 


fn @)=det| "2 Aa + —G | (26.4) 


_ 0 0 .. À — apr 


La validité de la formule (26.3) est confirmée par la décomposition 
du déterminant suivant les éléments de la dernière colonne. Du point 
de vue pratique, une autre écriture de la formule (26.3) est plus 
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commode : 
fr (A) = —(... ((@1nfo (À)) ua + Gonfa (À)) as2 + | 
co Han, hfn-2 (À)) nn + (A — xx) fra (à). (26.5) 


Matrices bandes. À s'appelle matrice bande si ses éléments a;; 
satisfont aux relations 


a;;=0, I<i—]j, j—i<m, 


pour certains nombres non négatifs !, m. Dans le cas où Z = 0, la 
matrice est dite bande inférieure; dans le cas où m = 0, on dit 
bande supérieure. 

Parmi les matrices bandes une place particulière revient aux 
matrices hermitiennes tridiagonales. Les éléments a;;, de ces matrices 
vérifient les relations 


a=0, li—-j|>1. 
Maintenant la formule (26.3) acquiert une forme très simple : 
fo(A)=1, f1()=À—-aus 
fr (M) = (A — ax) fre (À) — |Gn, n-11? fn-2 (À)- 


Les propriétés des matrices de forme spéciale examinées dans ce 
qui préeède ne sont pas exhaustives. I1 en existe d’autres que nous 
étudierons à mesure que la nécessité se présente. 


(26.6) 


EXERCICES 


1. Démontrer que l’ensemble des matrices triangulaires de même ordre et 
de même nom forme un anneau. 

2. Démontrer que l’ensemble des matrices triangulaires non générées de 
même ordre et de même nom forme un groupe multiplicatif. 

3. Ecrire le schéma de calcul de l’algorithme d’inversion d’une matrice 
triangulaire. 

4. Démontrer qu’une matrice triangulaire de forme quelconque peut être 
transformée à l’aide des permutations des lignes et des colonnes en une matrice 
triangulaire de toute autre forme. 

5. Démontrer qu’une matrice strictement triangulaire À d'ordre n satis- 
fait à l’équation An = O. 

6. Démontrer qu’une matrice triangulaire sera une matrice trapézoïdale 
si et seulement si l’un de ses mineurs principaux est un mineur de base. 

7. Une matrice pseudo-inverse à une matrice trapézoïdale sera-t-elle tra- 
pézoïdale ? 

à Fe Une matrice pseudo-inverse à une matrice bande sera-t-elle une matrice 
ande : 


$ 27. Principes théoriques de la décomposition 


Dans la recherche théorique relative à la décomposition des matri- 
ces en produits de facteurs on recourt largement à la formule de Bi- 
net-Cauchy [1]. D’après la notation qui y est adoptée on entend par 
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Ël Le e ee ee lp s : É S < é 

ji j j | le mineur de la matrice À situé à l’in- 
® 1 2 : a P Q e e. e 

tersection des lignes ài,, êe, . . ., in et des colonnes j;, je, - + +, jp. 


expression À | 


Théorème 27.1. Toute matrice À d'ordre n dont les mineurs 
principaux sont distincts de zéro, c’est-à-dire 


: Re : o h 
4 2...kl* =1, sc. N— 1, 


peut être mise sous la forme d'un produit de la matrice triangulaire in- 
férieure B par la matrice triangulaire supérieure C. Si 


by, 0 .. 0 Cas C2 ee Cin 


, bi bn .. 1, EE a 0 ... Cnn… 
alors, sous cette réserve, 


1 af | as) 
d,ic11 = À | Bonloo = — 9 bnnlnn = 55 —"%% 
4 af; A 412... n—1 
| 12: | 
F4 2... k—1 m 12... k—1 k 
A4 2 ...k—1 k Apr 


oùm—=k+1,...,n; k—1,2,...,n—1. 
Démonstration. Supposons que la décomposition (27.1) 
existe. En utilisant la formule de Binet-Cauchy, on trouve 


4 4 2...k—1 m 
1 2... k—A1 k]7 
1 2 .…. k— 1 m Œ Le ... 
— >, B| let x mg? 
1<ai<ae<...<ap<n Œy A2 -.. ps CR SEA 


C étant une matrice triangulaire supérieure, les premiers k de ses 
colonnes ne contiennent qu’un mineur d’ordre k distinct de zéro, 
qui est, notamment, le mineur principal. Par conséquent, 


4 2...k—1 m el! 2 ... k—1 m] [12 12 
Al4 2...k1 &]7 k 2... k—1 k 12..k]. 


= Dy102 . bp, k-10mhC11C22 .. CRhe 
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En posant dans cette formule m = k, on obtient 
alt 2470 L[t 2... 41001 2... #12 
41 2...kl 11 2...k 4 2...kl. 
gt 2.417004 2... k—17 7 
—=bnGmB 4 0 1101 2... 117 
=bmcnd |, 2 24 


ce qui donne le premier groupe des relations (27.2). D'autre part, 


ft 2 FT M] Lou bu. ban eur can se: Ch Pme 
1 2...k—1 k bn 


, RE 1 235.2 
h 8, . Le fe à D Da ile en 
= bRR MR bp 14-2::. |" 
ce qui prouve la validité de la formule des coefficients b,,:. La va- 
lidité de la formule des coefficients cm est établie d'une façon ana- 
logue. 

De la sorte, si la décomposition (27.1) existe, alors, à la détermi- 
nation des éléments diagonaux près, elle est unique et est déterminée 
par les formules (27.2). L’existence ne serait-ce que d’une décompo- 
sition sera établie par la suite. 


Corollaire. Si la matrice À est hermitienne et si ses mineurs 
principaux sont positifs, il existe une décomposition 


A = C*C, 


où C est une matrice triangulaire supérieure. 

Démontrons que dans ce cas pour B = C* la décomposition 
(27.1) est possible. Puisque les mineurs principaux de la matrice À 
sont positifs, on peut prendre 


_ 17\1/2 = 
cu=Bn =(4|, |) M, ..., = Can = nn = 


af 252 "] 1/2 
a 4 2 ..…. nn en 
Eu A A4 2... n—1 d 
4 2... n—1 
OÙ Pj, - + ++ Pn Sont des nombres réels arbitraires. Mais alors 
4 2...k—4 k 4 2...k—1 m 
= af, 2 ...k—1 n | af; 2...k—4 k 
Chm = Oxh 1 2...k = bus — 
af | af; “ 


= be. 
y 2. ” 


[© 1 
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Evidemment, la matrice C est déterminée à prémultiplication par la 
matrice diagonale dont tous les éléments sont égaux en module à 
l'unité près. 

Corollaire. Si pour un certain j (i) les éléments de la matri- 
ce À satisfont aux conditions 


&y=0, i=1,2,...,p<j (j=1, 2,...,r<i), 


alors les éléments de la matrice C (B) d'indices correspondants seront 
nuls eux aussi. 

En effet, examinons, par exemple, les éléments de la matrice C. 
D'après le deuxième groupe des relations (27.2) 


1 2.11 i 
af; 2 ...1—1 a 


= —— 
A 1 _ 
L 2:40 


Mais en vertu de l'égalité à zéro des éléments de la j-ième colonne 
de la matrice À, on tire que 


alt 21, 
1 2...i—1 j[7A% i<Ps 


ce qui rend valide l’affirmation avancée. L'égalité à zéro des élé- 
ments correspondants de la matrice B se démontre d’une façon ana- 
logue. 

Dans de nombreux problèmes appliqués on a à traiter des matri- 
ces « creuses », c’est-à-dire des matrices aux nombreux éléments: 
nuls. Le corollaire énoncé permet de décrire toute une classe de 
matrices creuses dont les facteurs triangulaires conservent l’allure- 
creuse particulière de la matrice initiale. Supposons que la matrice 
A vérifie la condition du théorème (27.1) et soit de la forme 


(27.3) 


où tous ses éléments non nuls se situent dans le domaine hachuré. 
La limite de ce domaine peut être arbitraire. I] ne faut seulement que 
toute droite verticale (horizontale) ait avec la partie supérieure 
(inférieure) de la limite un ensemble simplement connexe de points 
communs. Comme il résulte du deuxième corollaire du théorème 27.1, 
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des facteurs triangulaires B et C sont de forme analogue. Plus préci- 
sément, 


NN 


(27.4) 


R 


Tous les éléments non nuls des matrices B et C se trouvent dans les 
domaines hachurés, dont les limites sont les mêmes que celles de la 
matrice À. 

La propriété examinée des matrices (27.3) permet d’énoncer deux 
corollaires importants. Soit À une matrice bande, et a;; = 0, si 
l<Li—jou j — i < m pour certains entiers non négatifs L, m. 
Dans ce cas, la matrice B de la décomposition (27.1) sera une matri- 
ce bande inférieure, et la matrice C, une matrice bande supérieure. 
De plus, b;; = 0, sil Li—ÿj;c;; = 0; sij — i < m. Si la matrice 
A est une matrice quasi triangulaire supérieure (inférieure), la 
matrice B (C) de la décomposition (27.1) sera une matrice bidiagona- 
le inférieure (supérieure). 


Théorème 27.2. Toute matrice À non dégénérée d'ordre n 
peut être mise sous la forme d'un produit de la matrice unitaire U par 
la matrice triangulaire supérieure C, c'est-à-dire 


A = UC. (27.5) 
Dans ces conditions, 
; 1 2...n 1/2 
: LIVE ñ aa, tp 
CR mr DA 
aa; 2...n—1 
(27.6) 
141 2...k—1 k 
AA 2 mi 
ART CRE FA Deck) + 
aa, | 


oùm—=k+1Â,...,n; k—=1,2,..., n — 1, alors que mp, ... 
. + Ph Sont des nombres réels arbitraires. 
Démonstration. Supposons que la décomposition (27 5) 
existe; alors la matrice C doit satisfaire à l'équation 


A*A = C*C (27.7) 
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A*A est une matrice hermitienne et ses mineurs principaux sont 
positifs; c’est pourquoi, d’après le premier corollaire du théorème 
27.1, la matrice C peut être calculée à partir de l'équation (27.7). 
Mettons la matrice À sous la forme À = (AC-!)C. En tenant comp- 
te de (27.7), on a 


(AC”1) (AC”1)* = ACT1CT1* A" = A (C*C) 1! A* = 
— À (4*4)"! 4° = AA”14*"14* — E. 
Par conséquent, AC”! est une matrice unitaire et nous avons dé- 
montré ainsi que la décomposition (27.5) est possible. 
La matrice C (U) est déterminée à prémultiplication (postmulti- 
plication) par la matrice diagonale dont tous les éléments sont égaux 
en module à l’unité près. Les formules (27.6) s’obtiennent directe- 


ment des formules correspondantes du théorème 27.1 et de son co- 
rollaire. 


EXERCICES 


4. Démontrer que toute matrice non dégénérée est réduite par permutation 
des lignes ou des colonnes à une matrice qui vérifie les conditions du théorè- 
me 27.1. 

2. Désignons par A», Bz, C, les matrices des mineurs principaux d’ordre 
k des matrices À, B, C de la décomposition (27.1). Démontrer que pour tout & 
on vérifie l'égalité A; — BzCz. 

3. Formuler les conditions sous lesquelles une matrice peut être décomposée 
en produit de matrices triangulaires supérieure et inférieure. 

4. Quels sont les autres facteurs triangulaires qui peuvent s’obtenir par 
décomposition d'une matrice carrée ? Quelles sont les conditions d'existence de 
ces décompositions ? 

5. Démontrer que les premiers 4 vecteurs colonnes de la matrice U de la 
décomposition (27.5) constituent pour # une base orthonormée du sous-espace 
tendu sur les premiers k vecteurs colonnes de la matrice À. 

6. Démontrer que toute matrice non dégénérée peut être mise sous la forme 
de produit de matrices triangulaires inférieure et unitaire. 

7. Quelles peuvent être encore les variantes de la décomposition d’une 
matrice non dégénérée en produit de deux matrices dont l’une est unitaire et 
l’autre triangulaire ? 

8. Comment sont liés entre eux le déterminant de la matrice À et les déter- 
minants des matrices triangulaires des décompositions (27.1), (27.5) ? 


$ 28. Décomposition en produits de facteurs triangulaires 


Supposons que la matrice À satisfasse aux conditions du théorè- 
me 27.1. Puisque dans ce cas a,, = 0, les éléments de la première 
colonne de À permettent d'écrire la matrice W, de la forme (24.3) 
dans laquelle tous les éléments sous-diagonaux de la première colon- 
ne du produit À, = N,A sont nuls. Dans ces conditions, l'élément 
diagonal ne change pas et sera de ce fait distinct de zéro. 

Admettons que les matrices N,, N,, ..., N, de la forme (24.3) 
soient déjà calculées pour un certain r > 1, et la suite des matrices 


Ax= Nas, Ao= À (28.1) 
9—0484 
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déjà constituée pour 4 < k < r. Désignons par af) les éléments de 
la matrice 4, et supposons que 

aÿ=0 pour i>j, j<r, 08.2 
af? :£ 0 pour i<r. " 


Cette hypothèse est bien respectée pour r = 1. 

Montrons que la différence de zéro des mineurs principaux de la 
matrice À permet de poursuivre le processus (28.1). (28.1) permet 
de calculer 


A=(NT.::N7)2A;: (28.3) 
En appliquant la formule de Binet-Cauchy [1], on obtient 


14 2...r+1 
a=|, te 


—, es Na) | 


Sr : 


1 to ê rer 


Œy oo. Ur+] 14 2...r+1 


Ni! ... N;' est une matrice triangulaire inférieure aux éléments 
diagonaux égaux à 4. C'est pourquoi parmi les mineurs d'’ordre 
(r + 1) occupant les premières r + 1 lignes, le mineur principal est 
le seul à être distinct de zéro et égal à 1. Mais alors 


1 2...r+1 1 2...r+1 _ D 
Al, ao NAN EC TEE 7 


Le premier membre de cette relation est distinct de zéro en vertu 
des conditions imposées aux mineurs principaux de la matrice À, 


les éléments af”), . .., a) sont distincts de zéro en vertu des hypo- 


thèses (28.2). Par conséquent, a, ,:, = 0. Maintenant, les élé- 
ments de la (r + 1)-ième colonne de la matrice À, permettent de 
construire la matrice V,,, de la forme (24.3) et la matrice À,,, — 
= N,:14,. Par rapport à À,, dans cette matrice les éléments ne 
changent pas dans les premières r colonnes et les premières r + 1 
lignes. Par construction de la matrice W,.,, les éléments sous-diago- 
naux de la (r + 1)-ième colonne de la matrice À,;, seront nuls. 

Ainsi, on effectue encore un pas du processus (28.1) et le rempla- 
cement de r par r + 4 fait que les conditions (28.2) sont respectées. 
C'est pourquoi le processus (28.1) peut être poursuivi jusqu'à r — 
— n — 1. D'après (28.3), on obtient que 


A=(N5... Nils) An. 
Il résulte de (24.4) que Mit... N3l1 est une matrice triangulaire 


inférieure aux éléments diagonaux égaux à 1. 4,, est une matrice 
triangulaire supérieure. Les conditions imposées à la matrice À 
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assurent la différence de zéro de tous les éléments diagonaux de la 
matrice À, 1, sauf, peut-être, le dernier élément. 

Le processus décrit non seulement prouve qu’une matrice peut 
être décomposée en produits de facteurs triangulaires, mais qu'il 
peut être également utilisé pour le calcul numérique de cette décom- 
position. Il a reçu le nom de la méthode de Gauss de la décomposition 
triangulaire d’une matrice. 

Les erreurs d'arrondi font, certes, que le calcul de toutes les 
matrices n’est pas exact. Le produit des matrices triangulaires obte- 
nues ne donne déjà plus la matrice de départ À et, en réalité, 


(NW... Na)4,:=A+M, 


où M est la perturbation Éivaleite. 

Dans la notation de la transformation des colonnes, le processus 
(28.1) a été décrit et discuté au $ 24. Maintenant, au lieu de (24.6), 
on a 


An = fl (N xAn-1) =N 4h +M,; 
la formule (24.7) signifie que 


n—1 


M= X Mia (28.4) 


J1 est clair que pour évaluer les éléments de la perturbation équiva- 
lente M, il faut évaluer les éléments des matrices des erreurs M,., 


qui apparaissent lors de l’exécution des as isolés. 


Désignons par r4ÿ af}, ufÿ les éléments des matrices réelle- 


ment calculées N,, A:, M4. Les éléments de la matrice À, sont par- 
titionnés d’une façon naturelle en trois groupes différents suivant les 
modes de leur obtention. Plus précisément, 


fai, si i<k, où j<k, 
so _ | GB + na 0 (148870) A+ 0), 
1) — 
77 si à, j>4, 


0, si ik, j—=k. 
Ici ef), +571 prennent les valeurs courantes pour les erreurs de 
l'exécution des opérations arithmétiques. Les erreurs des éléments 
de la matrice M,., seront également obtenues conformément à ces 
groupes. | | 
L’estimation est la plus simple dans le cas des éléments du pre- 
mier groupe. Etant donné que ces nn Le ne changent pas, nous 
pouvons admettre que 
k1. 
NE 0, (28.5) 
sii< k, ou bien j <&. — 
g* 
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Considérons les erreurs produites par le calcul des éléments du 
deuxième groupe. On a 
25 = (a0 0 +niah °(1+eb 0) A+ )= 
= af-0 +0 un. 
Supposons que ee 71 = __4. Cela signifie qu'à l'élément ait) on 
ajoute l'élément nul. Mais alors, 19} = 0. L'égalité e{71 = 41 
entraîne l'inégalité | r{} af "D | w; donc 


[us |<o. (28.6) 
Mais si en 7 —1, alors que 1 me — —1, il vient 
aP = af + nas 0 (+ 0) +0), (28.7) 


où | où 71 | £ vw. Il en résulte que 


(R—1 (R)T(R —1 —1 R—1 
ui ) _ naf EC ) bof ( ) 


En tenant compte de (28.7), on obtient 
—(R)T(R 1 Ch (k—1 (k—1 
ina [<a |+lat ‘|+loi 1. 
Par conséquent, dans le cas considéré, 
(h—1) tai 1 Z) —(k—1 
ET FT: “(lai [+lai ?) + o. 
Enfin, si Ce ne eS HS ZÆ —1À, alors 
h-1) D UD L) (R—1 k1 k—1 
us ænipalÿ Ve; Has af + 
<e qui donne 


bip (a 1+21a8 0 D. (28.8) 
En réunissant (28.6)-(28.8), on tire que 
[us ur ptt(laÿ|+2lai ‘+0, (28.9) 


si j >k. 
Bien que tous les éléments du troisième groupe soient nuls, les 


erreurs y apparaissent quand même. Il en est ainsi du fait que, dans 


le cas général, les éléments correspondants de la matrice N,Ar ne 
sont pas nuls par suite des erreurs produites par le calcul des élé- 


ments de la matrice W,. C'est pourquoi 


R—1 CR —1 (R)T(R— 
An (GR + ER. 


$ 28] DÉCOMPOSITION EN PRODUITS DE FACTEURS TRIANGULAIRES 133 


Mais 
(k—1) = (k—1) 
CR) ik ik R—1) 
Nik — fl (is) TU D) (A+ vis ), 
donc 
Var HU ns 
Si v{$— 1) = —1, cela revient à ce que 
juf gs pit fai D), (28.10) 
Dans le cas où v%7!) — - 4, on a 
a 1) 
HU D <a 
et, alors, 
Lu <a? |. (28.11) 
(28.10), (28.11) entraînent que quel que soit le cas, 
: Re (k— (k=— 
afin paf + al] 0, (28.12) 


si, certes, i >. 

Les estimations obtenues des erreurs permettent d'évaluer les 
éléments u;, de la perturbation équivalente M. En prenant en con- 
sidération la relation (28.4) et les estimations (28.5), (28.9), (28.12), 
on trouve que 


{ 0, i= 1, 
pra |+1,51a81+...+1,51ai [+ 
luy1&i +0,51a% )+(i—t)o, j>i, (28.13) 


pit (ai 1+1,51 80 1+...+1,5[08 14 
Ca p+G-Do+laf lo, j<i. 
Si on introduit la notation 
a = max | 4) | 
j2x 
et néglige les termes en w, il résulte de (28.13) que 


0, i—= 1 
Jul p#i(a+1,5a+...+1,5a:+0,5a, j>i, (28.14) 
p't(ao+1,5a+...+1,5a;, +a;), ji. 
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Mais si la notation est 


on aura 


IlyI<& 1,5(i—1)p ta, j>i, (28.15) 
(1,5j—1)pria, j<i 


Les estimations (28.13)-(28.15) sont obtenues sans aucune hypo- 
thèse sur la grandeur des mineurs principaux de la matrice 4. Elles 
ont confirmé encore une fois la vue sur l'instabilité des processus 
du type (28.1), qui ne peut avoir pour source qu’une croissance im- 
portante des éléments des matrices intermédiaires À, dans le pro- 
cessus (28.1). 

Si on ne change pas en principe le schéma général des calculs, la 
seule possibilité de régler dans quelque mesure la croissance des 
TT c'est d'utiliser les permutations en appliquant le processus 
h Choisissons dans la matrice initiale À un élément quelconque 
an £ Ô que nous appellerons pivot ou élément principal du pre- 
mier pas, et examinons la matrice P;,, AP,,. En position (1.1) de 


cette matrice se trouve l'élément non nul a;%. Nous pouvons donc 


construire la matrice À, — W, (Pur, APis,) à éléments sous-diago- 
naux de la première colonne nuls. Supposons que d’une façon ana- 
logue aux matrices À,, ..., A,_, on ait déjà calculé les matrices 
À,, ..., Ar de (28.1). Parmi les éléments af" de la matrice 
À k-1 Qui satisfont aux conditions ë, j > k, choisissons un élément 
quelconque Cure = 0, que nous appellerons pivot ou élément prin- 
cipal du k-ième pas, et composons la matrice 


À = Nr (Pri, An-1Ph;,) (28.16) 


Puisque en position (k, k) de la matrice Pr, k-1Pr3, Se trouve un 
élément non nul, la matrice W, peut être choisie de façon que les 
éléments sous-diagonaux de la k-ième colonne de la matrice À; 
soient nuls. Dans ces conditions se conservent, évidemment, tous 
les éléments nuls obtenus auparavant pour la matrice À, En pour- 
suivant ce processus, nous aboutissons maintenant à la décomposi- 
tion 


A (Par... Past, Nnet) (AnPa-s,t,. see Pi). (28-17) 


n-1 


Les matrices placées entre parenthèses de (28.17) ne sont déjà 
plus triangulaires. Il peut sembler donc que l'analyse des erreurs 
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réalisée par le processus (28.1) ne convient pas au processus (28.16). 
Or, en réalité, les deux processus sont étroitement liés. En effet, 
transformons les expressions entre parenthèses du premier membre 
de (28.17) de la façon suivante: 


Pau Ni Po N3 Pis - NroPn-1, É. Nii= 
= (PissPois ... Pn_r,4) X(Pn1,1, PoieNi Pois». « 
Piotr )X(Pannt ce PaisN3 Pis... Pn-1,1 )X -.. 


led 


ee X (Parti, NrtePn 1,1, Nate 
Rappelons que à, > k pour tout k. Si l'on désigne 
Patte PuNat1Pu, ce Pnt,i, = Nas, (28.18) 


alors Vi14, est encore une matrice de la forme (24.3) et ne se distingue 
de la matrice 514, que par la permutation des éléments sous-diago- 
naux de la (4 — 1)-ième colonne. Pour obtenir les éléments de la 
matrice N;:,, il faut permuter de proche en proche les éléments de 
la matrice Vi, se trouvant dans la (k — 1)-ième colonne et dans 
les lignes d'indices (4, ix), . . ., (r — 1, i, 1). Maintenant (28.17) 
implique 


ÂAm(Ni... Nas) Ann (28.19) 


où 
ÀA=(Pn-i,i, ce Piis) A(Piñs ee. Pas, 5). (28-20) 


Les relations (28.18)-(28.20) montrent que le processus (28.16) 
détermine la décomposition en produits de facteurs triangulaires 


de la matrice À qui d'après (28.20) s'obtient à partir de la matrice À 
par permutation de ses lignes et de ses colonnes. L'analyse des erreurs 
réalisée pour la matrice À et le processus (28.1) est appliquée sans 
changement à la matrice À et au processus (28.16). Ce processus a 
recu le nom de la méthode de Gauss à permutations pour la décomposi- 
tion triangulaire d’une matrice. 


De cette façon, la croissance des éléments des matrices À, du 
processus (28.16) et, par conséquent, le niveau général des erreurs 
sont déterminés complètement par la stratégie du choix des pivots. 
Il existe trois stratégies les plus usitées. 

1. Comme pivot du k-ième pas on retient a" 1), élément maximal 
en module de la matrice 4, lorsque i > k, j = k. S'il existe plu- 
sieurs éléments maximaux en module, on prend comme pivot celui 
d'entre eux qui se trouve dans la ligne de plus petit indice. Cette 
stratégie s'appelle choix du pivot suivant la colonne. 
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2. Comme pivot du k-ième pas on choisit af?-!), élément maxi- 
mal en module de la matrice 4,_, lorsque i — k, j > k. S'il existe 
plusieurs éléments maximaux en module, on prend comme pivot 
celui d’entre eux qui se trouve dans la colonne de plus petit indice. 
Cette stratégie s’appelle choix du pivot suivant la ligne. 


3. Comme pivot du k-ième pas on choisit af?7!}, élément maxi- 


mal en module de la matrice 4, _, lorsque i > 4, j — k. S'il existe 
plusieurs éléments maximaux en module, on laisse d’abord ceux qui 
se trouvent dans la colonne de plus petit indice pour choisir entre 
ces derniers celui qui se trouve dans Ia ligne de plus petit indice. 
Cette stratégie s'appelle choix du pivot suivant toute la matrice. 


Pour les éléments des matrices W,, l'application de la première 
et is la troisième stratégies assure l'observation des inégalités 


[nr | 1. Dans ces cas, les estimations (28.13)-(28.15) ne peuvent 
être * améliorées que d'une fois et demie. Le facteur principal reste 


toujours la croissance des éléments des matrices À, par rapport aux 
éléments de la matrice de départ À. 


Les conditions | n® | L 1 permettent d'obtenir des estimations 
supérieures qui délimitent la croissance éventuelle des éléments des 


matrices 4,. Soit 
= (R 
a =max|af} |. 
4, 5 


Si on n’a pas effectué des LL. alors, évidemment, 
= (R) "(k—1) | Z(R)S(R— 1 au-1 T(k—1)1. 
ja [=|ai +ni ak <laÿ |+las "|; 


donc, ax < 2ar_,. Les permutations ne ie pas cette relation; 
c'est pourquoi 
Gr < 2*&o. (28.21) 


Malheureusement, l’application de la stratégie du choix du pivot 
suivant la colonne peut aboutir à l’estimation (28.21). Par exemple, 
elle s’obtient pour les matrices À de la forme 


7 1 0 O0 o1 
—1 1 0 01 
A=| —1 —1 1 01 
—1 —1 —1 11 
_—1 —1 —1 —11 
Le résultat est bien meilleur si l’on opte pour le choix du pivot sui- 


vant toute la matrice. Il a été démontré [5] que si &,_1 = f (4) &o, 
alors 


<< /? (2181/2408 RU INUE, (28.22) 
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Le second membre de (28.22) est bien inférieur à 2*-!. Pourtant, il 
semble que l'estimation (28.22) est très exagérée, du fait que jusqu’à 
présent on n’a trouvé aucune matrice pour laquelle f (k) > k. 

Nous avons prêté une grande attention à la croissance des élé- 
ments dans la méthode de Gauss. Notons, pourtant, que dans les 
calculs pratiques ce phénomène est très rare. Il arrive bien plus sou- 
vent que les éléments diminuent sensiblement. 


EXERCICES 


1. Appliquer la méthode de Gauss sans choix du pivot aux matrices quasi 
triangulaire et tridiagonale. 

2. Démontrer que la méthode de Gauss avec choix du pivot peut être appli- 
quée à toute matrice non dégénérée. 

3. Appliquer la méthode de Gauss avec choix du pivot suivant la colonne 
(la ligne) à une matrice quasi triangulaire supérieure (inférieure). Qu’est-ce qui 
change sensiblement dans l’algorithme de calcul si le pivot est choisi suivant 
toute la matrice? 

4. Appliquer la méthode de Gauss avec choix du pivos suivant la colonne 
ou la ligne à une matrice tridiagonale. Qu'est-ce qui change sensiblement dans 
l’algorithme de calcul si le pivot est choisi suivant toute la matrice ? 

5. Que peut-on dire de la grandeur des éléments diagonaux des facteurs 
triangulaires obtenus par application de la méthode de Gauss avec choix du 
pivot suivant toute la matrice ? 

6. Démontrer que la méthode de Gauss avec choix du pivot suivant toute 
la matrice réduit toute matrice, y compris une matrice dégénérée, à la forme 
trapézoïdale. 

7. Peut-on utiliser le choix du pivot suivant la colonne ou la ligne pour 
réduire une matrice initiale à une matrice trapézoïdale ? 

8. Comparer l'application de la méthode de Gauss sans choix du pivot à 
une matrice triangulaire inférieure et le processus d’orthogonalisation des vec- 
teurs lignes de cette matrice. 

9. Démontrer qu'en appliquant la méthode de Gauss avec choix du pivot 
suivant la colonne à une matrice tridiagonale, l'élément maximal en module. 
de chaque colonne n’augmente pas plus que de deux fois. 


$ 29. Schéma condensé 


Nous avons souligné à plus d’une reprise que la présence dans les 
formules des expressions du type des produits scalaires permet d’ap- 
pliquer efficacement les opérations d’accumulation et, par là même, 
diminuer le niveau général des erreurs. Mais, au fond, il est impos- 
sible d'appliquer ces opérations à la méthode de Gauss examinée 
précédemment. Ceci n’est lié qu’au choix de la méthode numérique 
de décomposition d’une matrice en produits de facteurs triangulaires. 

Examinons encore la matrice À qui satisfait aux conditions du 
théorème 27.1. Etant donné que la décomposition (27.1) existe, on 
obtient en égalant entre eux les éléments de la matrice À et du pro- 
duit BC 


Fes ) 
HT 7 bipCpj- (29.1) 
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Admettons que pour tout à, b;; = 1. Alors, (29.1) entraîne 


Cy1 = Gus 
aÿ1 ë 
C13 = dij LE her , j=2,8, 
i—1 
Cu = du — 2: bipC pi i= 2, 3, se ra Us (29.2) 
p= 
j—1 
1-1 su— À bipcpt 
D= 
= ay D dipcpy bn= —Î2%———, 


IT 
pi 


i—92,3,...,n, j—i+1, i+2,...,n 


Si la matrice À est quasi triangulaire, l’une des matrices B ou C 
sera en réalité bidiagonale. Dans ce cas, les formules (29.2) devien- 
nent plus simples. Par exemple, pour la matrice quasi triangulaire 
supérieure À 


Cy1 — Gus 
Ge . 
C13 = js ba=——, j=2, 8,...,1; 
11 
Cu —= Gui — di, 1101-21, b i = 2: 3, 7, 
_ _ Gas. i 
Ci = dj — bs, i-10 1-1, J» bi+x, ET =. 


Cdi 


i=92,3,...,n, j—=i+i, i+2, 
Pour une matrice tridiagonale À on a, notamment, 


Cia = Gui: 
as. 


C2 = Gin bn ae 


9 
Cu = Qu — Di, 1-12, à 


_  Gt+1.i 
Ciiti=Giitu Dit i = TS 


i= 2, 3, 


Les formules obtenues peuvent s'employer pour la détermination 
numérique du produit de facteurs triangulaires B et C de la matrice 
A. L'algorithme correspondant s'appelle schéma condensé de la métho- 
de de Gauss. Maintenant, dans le cas général, l'application des opé- 
rations d’accumulation est parfaitement justifiée. Certes, là aussi 
les erreurs d’arrondi manifesteront leur influence et au lieu des 


matrices B et C nous obtiendrons certaines autres matrices B, C à 
éléments by, Ciy. 
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Supposons qu'il faut trouver les éléments de la première ligne 
de la matrice C et de la première colonne de la matrice B. Posons 
Cu = Gun Ci —= a, et calculons 


En=0() = (1 +en). 


Cat 


Les éléments d;, réellement calculés peuvent être considérés comme 
des éléments calculés exactement en partant des éléments perturbés 


an + Une Si en # —1, alors | pa 1Z(4/2) p-# 16 |] bn 1. Mais 
Si en — —1, cela signifie que | ay | << [cu | w, donc, [uy | < 
< |Cu1 1 ©. Finalement, on obtient 


À ot Ti gs 
[unlZs>r?""*"1cul lbnl+leule. 


Le calcul des autres éléments est discuté d’une façon analogue. Sup- 
posons qu’on calcule les éléments c;, pour i >1, y compris l'élé- 
ment diagonal cy,;. On a 

_ i—1 ES 

Ci = (a, 2 bipCpi) = (a; — ui bipCp}) (1 +). 


On en tire que les éléments c; ; réellement calculés peuvent être con- 
sidérés comme calculés exactement en partant des éléments pertur- 
bés de la matrice 4. Il importe de souligner que dans le calcul de 
l'élément ir la perturbation complémentaire pu, n’est apportée 
qu’à l'élément a;y. Si ti5 = —1, alors 


i—1 
ay — D) bipCpy 7 Se Ci (1 —Tiÿ), (29.3) 
donc, 7 
PASS me CA 
Mais si t;y — —1, cela signifie que l'expression du premier membre 


de (29. 3), ne dépasse pas © en module. Mais alors, | y | << ©. Par 
conséquent, toujours, 


= TT. en 
EMESS ae CAEN 


D'une façon analogue on obtient que dans le calcul des éléments 


b; la perturbation complémentaire u,, n’est apportée que dans l’élé- 
ment a;;. De plus, 


Le 1 = de 2” ! Ed 
lunlZs pl culs + cul o. 
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Ainsi, pour calculer la décomposition triangulaire d'une matrice 
d’après les formules (29.2) on peut encore tenir compte de l'influence 


des erreurs d’arrondi sous la forme de l'analyse inverse. Si BC — 
— À + M, en réunissant les estimations obtenues, on tire que les 
éléments u;; de la perturbation équivalente M vérifient les inéga- 
lités 

i= 1, 


| Buy = pr"! [cy|+ ©, j21, (29.4) 


NO ES tofs © 


P'tIcyllbyl+leyslo, j<i. 


Aussi bien que dans la méthode de Gauss, dans le schéma condensé 
l'instabilité de la décomposition triangulaire est liée surtout à la 
croissance éventuelle des éléments. Ordinairement il s’agit des matri- 
ces dont les éléments sont sensiblement plus grands que w!/%. Dans 
ce cas, les estimations (29.4) deviennent plus simples. En parti- 
culier, 


0 i = 1, 
| +117 . ° 
[uy|Z ? TP ‘Ich jZi, (29.5) 
4 _ NT ; ; 
5 Pc, J<t. 


L'utilisation du schéma condensé est la plus efficace dans le 
calcul d’une décomposition triangulaire des matrices définies posi- 
tives. D’après le corollaire du théorème 27.1, ce cas donne lieu à la 
décomposition 


A = C*C. (29.6) 


En pleine conformité avec (29.2), on obtient maintenant 


1/2 a 
Cu =ai 9 =, j>41, 
i—1 42 
Cu — (au— > | Cpi P) , i> 1, (29.7) 
pæi 
i1 | 
aij — + CpiCpj 
1 


pe Q . 
HE gr JL 
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En particulier, si la matrice À est réelle, 


1/2 a; | 
Cya = ii , C1 — , j>1, 
1—1 112 
Y u ; 
cu=(ai— à. ch) . i> 1, (29.8) 
pi 
i—1 
dj— à CpiCpJj 
=! 5 ; 
Ci = 2 ]J>1. 


Cii î 


Ces formules s'emploient pour le calcul de la décomposition 
(29.6) de la même façon que les formules (29.2) utilisées pour la dé- 
composition (27. 1). L'algorithme correspondant s ‘appelle méthode 
de la racine carrée. Si on applique les opérations d’accumulation, 


alors on a pour la matrice C réellement calculée 
C*C—A+M. 
Les éléments p;; de la perturbation équivalente M satisfont aux 
relations analogues à (29.5). Plus précisément, 
d = lt xd : , 
7 P “lallouk >, 


= Le A qe : - 

LES ZP"tIcullenh  ji<i 

U prt* lou [2 sf. 
Nous ne nous attarderons pas à les déduire en détail, puisqu'ils s’ob- 
tiennent presque de la même façon que les relations (29.5). Remar- 


quons seulement que maintenant on peut évaluer || M |[L avec une 
efficacité particulière : 


I MÎle < LE D lcieu P+ D) ut)" < 


j>i LE 
<r (5 jour D le F cri (> (Dee) 7 & 
i=i = im J>i 
= (ZX HEC)" <p#( 2 Cu)" = 


imi À, J=i 
= pr ||CC* IL = pr 411 C*C le = pr || À Îlee 
Ainsi, 
M Île  p7#4 11 À Ir. 
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EXERCICES 


1. Comparer les formules (28.14) et (29.5). 

2. Analyser les erreurs du schéma condensé de la méthode de Gauss sans 
faire appel à l’hypothèse sur l’utilisation des opérations d’accumulation. Com- 
parer les résultats obtenus avec (28.14). 

3. Comment utiliser les permutations dans le schéma condensé de la métho- 
de de Gauss? 

4. Démontrer qu’en appliquant les permutations à la méthode de la racine 
ra on peut décomposer (29.6) en obtenant une matrice triangulaire C nor- 
malisée. 

5. Démontrer que pour une matrice hermitienne À à mineurs principaux 
non nuls il existe la decomposition 

A = S*DS, (29.9) 


où S est une matrice triangulaire supérieure et D, une matrice diagonale aux 
éléments +1. 
6. Ecrire les formules analogues à (29.7) pour la décomposition (29.9). 
Fe 7. as les formules de la décomposition d’une matrice hermitienne tri- 
iagonale. 
8. Démontrer que toute matrice C respectant l'égalité (29.6) vérifie les rela- 
tions 


IClla=1 Al, NAIL? <ICIEe<nt/1 41/2. (29.10) 


9. Démontrer que la réalisation de la méthode de la racine carrée pour 
une matrice définie positive ne s’accompagne pas de l'augmentation de l’élé- 
ment maximal en module. 

10. Que peut-on dire des analogues des exercices 8, 9 appliqués à la décom- 
position (29.9)? 


$ 30. Décomposition en produits de facteurs 
unitaire et triangulaire 


Nous avons déjà dit qu'une matrice carrée peut être décomposée 
en produits de matrices unitaire et triangulaire. Il existe pas peu 
d’algorithmes pour le calcul numérique de cette décomposition. 
Pourtant, la plupart d'entre eux ont à leur base le processus d'’élimi- 
nation des éléments à l’aide des transformations unitaires ou les 
processus d’orthogonalisation examinés dans ce qui précède. 

Soit À la matrice carrée d'ordre »#. Ecrivons d’après les formu- 
les (18.11) la matrice de rotation T,, telle que l'élément en position 
(2.1) de la matrice À, = T,,4 soit nul. Puis écrivons la matrice de 
rotation 7,4 de façon que s’annule l'élément en position (3.1) de la 
matrice À: = T54,. Il est clair que dans ces conditions l'élément 
nul obtenu au premier pas reste inchangé. Ensuite, choisissons la 
suite des matrices de rotation, par exemple, par cyclage suivant les 
colonnes pour m = n — 1. Construisons les matrices elles-mêmes de 
façon que lors de la multiplication successive par la matrice de rota- 
tion T';, l'élément en position (j, i) soit éliminé. 

La réalisation de chaque pas conserve, évidemment, tous les 
éléments nuls obtenus aux pas précédents. Après N = n(n — 1)/2 
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pas nous obtiendrons une matrice triangulaire supérieure A Xx; de 
plus Ax = RxA, où Rx = Tr-ynTn-onm + + +: Ti371o. Il en ré- 
sulte que 

A= R\Ax. (30.1) 


R$* est une matrice unitaire et nous avons ainsi établi la décompo- 
sition recherchée. 
L'influence des erreurs d’arrondi fait que le calcul réel fournit 


certaines autres matrices A x, T;,. Mais comme le montrent les 
recherches du $ 19, nous aurons 


Av = Rn(A+M), (30.2) 


OÙ Ra = Tn-ynTn-on + ++ T13T1123 de plus, conformément à 


(49.12), 
MZ V2 (2r—3) p#*1] Alle. (30.3) 


Certainement, l’ordre d'élimination des éléments peut être diffé- 
rent lui aussi. En particulier, si les matrices de rotation sont choisies 
par cyclage suivant les lignes, la perturbation équivalente correspon- 
dante vérifie l’estimation (30.3). 

Nous avons déjà noté au $ 19 que les deux suites cycliques sont 
équivalentes, au choix des angles de rotation près. Dans le cas de 
l’utilisation de ces suites pour l'obtention de la décomposition d’une 
matrice en produits de facteurs unitaire et triangulaire, on peut faire 
une déduction plus exacte. Puisque pour toute matrice T';; le calcul 
de l’angle de rotation n'est lié qu'aux éléments de la i-ième et de la 
j-ième lignes, les suites cycliques suivant les lignes et les colonnes sont 
complètement équivalentes. Par conséquent, lors de la décomposition 
d’une matrice en produits de facteurs unitaire et triangulaire, ils 
donnent le même résultat, y compris toute la collection des erreurs 
d’arrondi. 

La décomposition d'une matrice en matrices unitaire et triangu- 
laire peut se faire également à l’aide des matrices de Householder. 
En effet, établissons d’après la première colonne de la matrice À la 
matrice de Householder UV, telle que tous les éléments sous-diago- 
naux de la première colonne de la matrice À, — U,4 soient nuls. En- 
suite, établissons d’après la deuxième colonne de la matrice À,, la 
matrice de Householder VU, telle que tous les éléments sous-diago- 
naux de la deuxième colonne de la matrice 4. — U,A, soient nuls, 
alors que l'élément de la première ligne reste inchangé. En tenant 
compte de la forme (21.1) de la matrice À, tirons la conclusion que 
la multiplication par la matrice U, ne change pas la première colonne 
de la matrice À,. Après l'exécution de N = 7 — 1 pas on obtient 
la matrice triangulaire supérieure A, et la décomposition (30.1), 
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Où Rx = Uh_1 ... U,. Les calculs réels conduisent à la décompo- 
sition (30.2). D’après l'estimation (21.7) on a maintenant 


_ 2,5 V2+5 = 
IMISZ REVÈES (01) pt | Alle. 


Pour le calcul numérique de la décomposition de la matrice À 
en matrices unitaire et triangulaire on peut utiliser aussi le processus 
d'orthogonalisation. Envisageons les lignes de À comme des vecteurs 
devant subir l’orthogonalisation. La normalisation du premier vecteur 
se ramène à la prémultiplication de À par la matrice diagonale D,, 
dont seul le premier élément est différent de 1. Cela donne la matrice 
Q, = D,A. D'après (25.2), le calcul du vecteur v, signifie qu’une 
certaine matrice f, de la forme (24.9) est déterminée et employée 
pour la prémultiplication de la matrice Q,. La normalisation du 
deuxième vecteur est la prémultiplication successive par la matrice 
diagonale D,, dont seulement le deuxième élément est différent de 1, 
etc. 

Le processus tout entier se compose de Ÿ — nr pas. L’interpréta- 
tion matricielle du k-ième pas signifie l'obtention d’une certaine 
matrice M, de la forme (24.9), la prémultiplication de la matrice 
-Q,,. calculée auparavant, par M,, la détermination de la matrice 
diagonale D, ne possédant que le k-ième élément distinct de 1, et le 
calcul de la matrice Q, = D,M;,A4:-,. Après l’exécution de N pas 
on obtient la matrice Q,; dans ces conditions 


Qx = (D;xMXx ... D,M,D;) À, 
d'où il résulte que 
A=(DxM x... D:M,D;)*Qx. 


(DxMx»x .- -. D:M,D,)"* est une matrice triangulaire inférieure. En 
la désignant par À y, on aboutit à la décomposition 


A = A xQ x; 
dans laquelle, par rapport à (30.1), le facteur unitaire est supérieur, 
alors que le facteur triangulaire est inférieur. 
Dans ce processus aussi les erreurs d’arrondi conduisent au cal- 


.cul de certaines àutres matrices O\, Dr, My ... D. Si, de plus, 
on applique d’après (25.11) la réorthogonalisation des vecteurs, alors, 


au lieu de chaque matrice M,, nous aurons en réalité le produit 


MÉ* ... MM" des matrices de la forme M,. Pour autant, 
conformément à (25.7), la décomposition réelle sera la suivante: 


Ov = (DM... DMS® ... MD, (A+M), 
IMIIe<( max s:) p#*111 4 [Ie 
2<R<N 


Rappelons que dans les calculs pratiques, toujours s, = 2. 
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EXERCICES 


1. Supposons que la matrice À est réduite à la forme triangulaire en la 
postmultipliant où là prémultipliant par la suite cyclique des matrices de rota- 
tion suivant les lignes. Comment en utilisant ce processus calculer les mineurs 
principaux de la matrice À ? 

2. Peut-on calculer les mineurs principaux d’une matrice si pour sa réduc- 
tion à la forme triangulaire la suite des matrices de rotation est choisie par 
cyclage suivant les colonnes? 

3. Démontrer qu'à l’aide de la prémultiplication par la suite des matrices 
de rotation ou de Householder choisie convenablement, on peut réduire la 
matrice initiale non seulement à une matrice triangulaire supérieure, mais aussi 
à une matrice triangulaire inférieure. 


4. A quelle forme peut-on ramener une matrice à l’aide des transformations 
unitaires à droite? 


5. Peut-on améliorer le coefficient V2 de l’estimation (30.3) ? 
6. Démontrer qu'à l’aide du processus d’orthogonalisation on peut décom- 
poser une matrice en produit de matrices unitaire et triangulaire supérieure. 


$ 31. Décomposition des matrices rectangulaires 


Les algorithmes de calcul de la décomposition d'une matrice en 
produit de facteurs ont été décrits dans ce qui précède surtout sur 
l'exemple des matrices carrées. Or, nombreux d'entre eux peuvent 
être appliqués aussi sans changement aux matrices rectangulaires 
générales. Nous allons examiner quand même ce cas plus en détail 
en portant une attention particulière sur ceux des algorithmes dont 
l'emploi est le plus fréquent dans la décomposition des matrices 
rectangulaires. 

Toute décomposition d’une matrice en produit de facteurs se 
ramène en somme à sa transformation équivalente. Pour résoudre la 
plupart des problèmes algébriques, il faut qu'on puisse établir sans 
peine d’après la forme de la matrice résultante la position du mineur 
de base. Au fond, c'est justement cet impératif qui détermine notre 
intention de réduire la matrice initiale à la forme triangulaire. 

Si une matrice satisfait aux conditions du théorème 27.1, l'uni- 
que élément diagonal nul de la matrice triangulaire ne peut se trou- 
ver qu'à la fin de la diagonale. C’est pourquoi le mineur de base se 
situera dans celles des lignes et des colonnes d’une matrice triangu- 
laire, qui contiennent des élements diagonaux non nuls. Mais si la 
matrice initiale est arbitraire, l'application formelle des algorithmes 
examinés précédemment peut donner une matrice triangulaire telle 
que ses éléments diagonaux nuls puissent se trouver en positions les 
plus diverses sans suivre obligatoirement l’un l’autre ou être à la 
fin de la diagonale. Dans ce cas, la détermination du mineur de base 
est difficile et réclame des calculs supplémentaires. Pour surmonter 
les difficultés, là encore il s’avère utile d'appliquer les permutations. 

Soit À une matrice rectangulaire m “ n de rang r. Appliquons à 
cette matrice la méthode de Gauss avec choix du pivot suivant toute 
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la matrice. Après r pas on obtient la matrice trapézoïdale supérieure 
(r) (r) 
4 = A? | 412 
r 0 | 0 , 
où 4) est la matrice triangulaire supérieure d'ordre r aux éléments 
diagonaux non nuls. Sir = n our = m, la matrice À, ne possédera 


pas respectivement la dernière colonne ou la dernière ligne. La matri- 
ce initiale À peut être réduite à la matrice trapézoïdale inférieure 


A | 0 
Ax| 0j 


si la méthode de Gauss avec choix du pivot suivant toute la matrice 
est appliquée à la transposée 4’. Rappelons que le mineur de base 
d’une matrice trapézoïdale est son mineur d'ordre r dans l'angle à 
gauche en haut. 

Pour réduire une matrice rectangulaire à la forme trapézoïdale 
on peut utiliser également les transformations unitaires. Choisissons 
dans À la colonne à somme maximale des carrés des modules des 
éléments et mettons-la à la place de la première colonne. Si ces co- 
lonnes sont plusieurs, prenons parmi elles la colonne à indice le plus 
petit possible. Maintenant, en prémultipliant par la matrice de 
Householder ou la suite des matrices de rotation choisie convenable- 
ment, éliminons les éléments sous-diagonaux de la nouvelle première 
colonne. Supposons déjà obtenue la matrice dont les premières k 
colonnes, 41. sont les colonnes d'une matrice trapézoïdale. Parmi 
toutes ses colonnes, sauf les À premières, choisissons celle qui possè- 
de la somme maximale des carrés des modules des éléments ne fai- 
sant pas partie des premières k lignes de la matrice obtenue. S'il y a 
plusieurs de ces colonnes, prenons parmi elles la colonne à indice 
le plus petit possible. Permutons la colonne retenue à la place de la 
(k + 1}-ième colonne et éliminons ses éléments sous-diagonaux en 
prémultipliant par la matrice de Householder ou la suite des matrices 
de rotation convenable. Après l'exécution de r pas, nous obtiendrons 
une matrice trapézoïdale supérieure. Bien plus, comme le montre sa 
construction, elle sera aussi une matrice normalisée. L'application 
de ce processus à la matrice 4’ permet de réduire la matrice À à la 
forme trapézoïdale normalisée inférieure. 

Les transformations unitaires permettent de réduire une matrice 
rectangulaire non seulement à la forme trapézoïdale, mais aussi à 
une matrice bidiagonale. En effet, choisissons une matrice de Hou- 
seholder U, telle que les éléments de la première colonne au-dessous 
de la diagonale de la matrice 4, — U,A s’annulent. Ensuite, choi- 
sissons une matrice de Householder V, telle que les éléments de la 
première colonne de la matrice À, = A,V, ne changent pas, alors 
que les éléments de la première ligne à droite de l’élément en posi- 
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tion (1.2) s’annulent. En prémultipliant et postmultipliant à tour de 
rôle par les matrices de Householder et en éliminant par là les élé- 
ments dans l'ordre suivant : 


(2.1), (3.1), (4.1), ..., (m.1), 
(1.3), (1.4), . .., ({.n), 

(3.2), (4.2), ..., (m.2), 

(2.4), ..., (2.n), 


nous aboutirons à une matrice bidiagonale supérieure D. Si l’éli- 
mination est conduite à partir des éléments de la première ligne, on 
peut d’une façon analogue réduire la matrice initiale À à une matrice 
bidiagonale inférieure. La matrice bidiagonale D est liée à la matri- 
ce initiale À par la relation 


D = UAYV, : 


où U, V sont des matrices unitaires. Certainement, ce processus peut 
être réalisé aussi à l’aide des matrices de rotation. 

Nous n’allons pas explorer les erreurs d’arrondi des algorithmes 
qui viennent d’être examinés, quels que soient leurs aspects, les ré- 
sultats obtenus précédemment couvrant également le cas des matri- 
ces rectangulaires. 


EXERCICES 


4. Examiner l'application de l’orthogonalisation à la décomposition d’une 
matrice rectangulaire en produit de facteurs. 


2. Peut-on appliquer la méthode de Gauss avec le choix du pivot suivant 


la colonne ou la ligne pour transformer une matrice rectangulaire en une matrice 
trapézoïdale ? 


8. Trouver une base du noyau des matrices trapézoïdales supériere et infé- 
rieure. 


4. Peut-on utiliser les permutations des lignes et des colonnes" dans le 


pots de transformation d’une matrice rectangulaire en une matrice bidia- 
gonale ? 


$ 32. Décomposition de similitude unitaire 


Supposons donnée la matrice carrée À d'ordre x soumise à la suite 
des transformations de similitude à matrices Q,, ..., Q.. Si l’exé- 
cution de ces transformations conduit à l'obtention d’une certaine 
matrice B, alors 


B=(Q51... Q1') A(Q ... Q)). (32.1) 
Il s'ensuit que 


A=(Q:...Q.)B(Q;...07). 


10% 


148 DÉCOMPOSITION DIRECTE DES MATRICES [CH. IV 


Ainsi, toute transformation de similitude de la matrice À conduit, 
au fond, à sa décomposition en produit de facteurs. 

On sait [1] qu’il existe une transformation de similitude pour 
laquelle la matrice B de (32.1) est triangulaire, quasi diagonale ou 
a la forme canonique de Jordan. Pourtant, toutes ces transformations 
sont liées par le biais à la recherche des racines des polynômes algé- 
briques et, de ce fait, ne peuvent être obtenues, dans le cas général, 
en un nombre fini d'opérations arithmétiques. Pourtant, on peut 
construire une transformation de similitude (32.1) avec une matrice 
B bien plus simple que la matrice initiale À. 

Examinons d’abord une matrice À de forme arbitraire et montrons 
qu'on peut la réduire par des transformations de similitude unitaire, 
par exemple, à la matrice quasi triangulaire inférieure. Composons 
d'après les éléments de la première ligne de À la matrice de Househol- 
der U, de façon que le premier élément de cette ligne reste inchangé, 
alors que tous ses éléments à droite de l’élément (1.2) s’annulent. 
Puis, composons la matrice ÀU,, et enfin, la matrice À, = U*AU. 
Par construction, seulement les deux premiers éléments de la pre- 
mière ligne de la matrice À U, peuvent être distincts de zéro. Mais la 
prémultiplication de la première ligne par la matrice U* ne la 
changera pas. Par conséquent. la première ligne de la matrice À, 
est de la forme de la première ligne de la matrice quasi triangulaire 
inférieure. 

Supposons que nous avons composé les matrices de Householder 
U,, ..., U, telles que les premières k lignes, 4 1, de la matrice 


A, =(U# ...U?) AU... Un) (32.2) 


aient la forme des premières k lignes de la matrice quasi triangulaire 
inférieure. Composons d’après les éléments de la (4 + 1)-ième ligne 
de la matrice 4, la matrice de Householder U,;, telle que les pre- 
miers À éléments de cette ligne restent inchangés, alors que tous ses 
éléments à droite de l'élément (4 + 1, k + 2) s’annulent. Il est 
clair que les premières #4 + 1 lignes de la matrice A,U,:, ont la 
forme des lignes correspondantes de la matrice quasi triangulaire 
inférieure, alors que la prémultiplication par la matrice UË,1 ne 
change pas les premières 4 + 1 lignes. En poursuivant le processus, 
nous obtiendrons la matrice quasi triangulaire inférieure 


B=—(U*_e ... U*) AU... Un), (32.3) 


unitairement semblable à la matrice À. 

Certes, la transformation (32.3) peut être réalisée non seulement 
avec les matrices de Householder, mais aussi avec les matrices de 
rotation. L'analyse des erreurs d’arrondi, produites par les proces- 
sus numériques réels, est complètement couverte par l'analyse réali- 
sée au $ 23 si dans les formules (23.8), (23.10) le nombre nr est rempla- 
cé par le nombre 7 — 1. 
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Considérons plus en détail un cas particulier mais très important. 
Soit À une matrice hermitienne; alors toutes les matrices À, de 
(32.2) et la matrice PB de (32.3) seront hermitiennes elles aussi. Mais 
une matrice hermitienne quasi triangulaire est en réalité une matrice 
hermitienne tridiagonale. Par conséquent, dans le cas où À est une 
matrice hermitienne, la transformation de similitude (32.2), (32.3) 
devient particulièrement efficace. 

Pourtant, le traitement des matrices hermitiennes présente plu- 
sieurs particularités. L'influence des erreurs d’arrondi fait que l’her- 
miticité des matrices À, de (32.2) sera compromise. Pour la rétablir, 
dans les cas courants on calcule la moitié des éléments des matrices 
A} inférieurs ou supérieurs à la diagonale principale, alors qu'aux 
autres éléments on attribue des valeurs forcées. Ceci change quelque 
peu la distribution des erreurs par rapport aux processus examinés 
précédemment, et c’est pourquoi, pour les matrices hermitiennes, 
l'analyse des erreurs impose une discussion spéciale. 

Il y a encore quelques problèmes d'organisation qui influent aussi 
sur l’analyse des erreurs. Une matrice hermitienne ne peut être don- 
née que par la moitié de ses éléments. La tendance à utiliser la mé- 
moire d’un ordinateur d’une façon plus économique fait chercher le 
moyen de donner aussi par la moitié de leurs éléments toutes les 
matrices hermitiennes intermédiaires. Mais les algorithmes ne sont pas 
tous à permettre de se borner à toutes les itérations de la moitie des 
éléments. Soient, par exemple, la matrice hermitienne À et la matri- 
ce de Householder Ü. Il est clair que les matrices À et U*AU peu- 
vent être données par la moitié de leurs éléments. Mais si on calcule 
la matrice U*AU à l’aide du calcul intermédiaire de la matrice AU, 
on ne voit pas tout de suite comment une moitié des éléments peut 
suffire à toutes les itérations, du fait que la matrice À U ne sera plus 
hermitienne. Il semble qu'il fasse modifier d’une certaine façon le 
schéma de calcul, ce qui entraînera, probablement, une autre distri- 
bution des erreurs. 

La modification à apporter dans le schéma de calcul est assez 
simple. Si l’on tient compte de la forme (20.4) de la matrice de Hou- 
seholder, on aura 


U*AU = (E—+uw*) A(E-< v*) = 


— À — (+4 Fa vu* Auv* ) — 
(1 yye 4 1, * 3924 
(= 1v*4 DE LU Auv* ) . (32.4) 
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Si on introduit la notation 


ps sp, p=(E—+ vr*) Ar, (32.5) 


Y 
alors, d’après (32.4), 
U*AU = À — vp* — pu*. (32.6) 


La donnée de la matrice À par la moitié de ses éléments permet 
maintenant de calculer la moitié des éléments analogue de la matrice 
U*AU sans accroître sensiblement le volume de la mémoire de l’or- 
dinateur pour conserver les résultats des calculs intermédiaires. 
Le nouveau schéma de calcul se distingue sensiblement de l’ancien; 
on ne peut donc pas sans justification appropriée y reporter les ré- 
sultats de l'analyse des erreurs effectuée précédemment. 

Soient v, y les éléments de la matrice de Householder calculée Ü. 
Désignons par r, p les vecteurs _calculés exactement d’après (32.5), 
mais en partant des quantités v, y. Alors, conformément à (32.6), 


Ü*AU = A— vp*—pr*. (32.7) 


Le calcul du second membre de (32.7) fait apparaître des erreurs. 
Donc, en réalité, on aura 


A (4A—vwp*— pv*) =A—vp*—pu*+N, 

où N est la matrice des erreurs cumulées. 

Les éléments de N ne sont pas tous à se former de la même façon. 
Si Ü est la matrice de Householder calculée au (k + 1)-ième pasdu 
processus de réduction de la matrice à la forme tridiagonale, les 
éléments de N qui se trouvent dans les premières k lignes et k colon- 
nes, ainsi que l'élément (4 + 1, À + 1) peuvent être considérés com- 
me nuls. Les éléments extra-diagonaux de la (4 + {)-ième ligne et 
de la (4 + 1)-ième colonne vérifient les relations de la forme (20.20); 
les autres éléments de la matrice N dépendent du mode de calcul du 
second membre de (32.7). 

L'analyse des erreurs qu'il faut réaliser reprend pour beaucoup 


la discussion du $ 20. Nous ne la donnerons pas en détail, en nous 
bornant à donner les résultats essentiels. Calculons 


r=f (+?) =f+e, 

u = fl, (Ar) = Ar +1, 

pl ((E-5o#)u)=p+, 

À =fl, (4A—0p*— pr) =A—vp—pu+N. 
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Ici 
+1 


Î E Île < P ; 


_ 
(2y) "7° 
= 1 2 \1/2 4 

nie X (+) P*"IlAlle, 


L DVD 
Ivlle &3,5 (=) 7 PI Alle, 
Ÿ 
IN Île Z 14,5p7%%4 11 A lg. 


Maintenant, en utilisant les résultats du $ 23, on peut tirer la con- 
clusion suivante. Si la matrice hermitienne À d'ordre # subit la 
transformation de similitude à l’aide des matrices de Householder 


calculées U,, ..., U,_, pour devenir matrice hermitienne tridiago- 


— 


nale PB, alors 
B=Uxto...Ui (4+A) 


DÉPOT PE (32.8) 


où 
INA Île 48,5 (2 —2) pt || Ale. (32.9) 


Cette estimation est environ deux fois plus grande que dans le cas 
de la réduction d’une matrice arbitraire à une matrice quasi trian- 
gulaire. 


EXERCICES 


1. Démontrer qu’à l’aide des transformations de similitude unitaires une 
matrice peut être réduite à une matrice quasi triangulaire supérieure. 
2. Démontrer que les vecteurs r, v, p de (32.5) vérifient les relations 


2 \1/2 
irle= (+), lol 214. 

3. Ecrire le schéma de calcul de l’algorithme de transformation de similitude 
d'une matrice hermitienne en une matrice tridiagonale à l’aide des matrices 
de rotation. 

4. Réaliser l’analyse des erreurs sous les conditions du problème de l’exer- 
cice 3. Démontrer que l'élimination par cyclage des éléments suivant les colon- 
nes sous les termes de la notation (32.8) satisfait à l’estimation 


IA lle < 43 (—1) p-t#1| A lg. 


5. Ecrire le schéma de calcul de l’algorithme de calcul des mineurs princi- 
paux d’une matrice hermitienne tridiagonale. 

6. Ecrire le schéma de calcul de l’algorithme de décomposition d’une matrice 
quasi triangulaire en produit de matrices unitaire et triangulaire. 


$ 33. Quelques remarques 


Du point de vue formel toute décomposition d'une matrice en 
produit de facteurs peut s’obtenir de la façon suivante. Admettons 
que les éléments des facteurs sont des quantités inconnues. Multi- 
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plions les facteurs entre eux et égalons les éléments du produit aux 
éléments de la matrice de départ. Nous obtiendrons ainsi un certain 
système d'équations non linéaires par rapport aux éléments incon- 
nus. Ajoutons au système donné les équations définissant la forme des 
facteurs, puis résolvons le système construit pour chercher les élé- 
ments de la décomposition à obtenir. 

Nous avons déjà examiné ce mode de décomposition triangulaire 
en étudiant le schéma condensé de la méthode de Gauss. On peut 
encore noter qu'il est possible de réduire une matrice carrée à une 
matrice quasi triangulaire par transformation de similitude triangu- 
laire [5]. Pourtant, dans la plupart des cas, les systèmes d'équations 
non linéaires qui apparaissent dans ces conditions s’averent si compli- 
qués, que leur résolution directe devient inefficace. 

La décomposition la plus efficace d’une matrice en produit de 
facteurs est liée à la réalisation d’une suite des éliminations des élé- 
ments à l’aide de la multiplication par les matrices élémentaires. 
Certes, en réalité, ces processus sont équivalents à la résolution des 
systèmes d'équations non linéaires décrivant la décomposition de la 
matrice. L'interprétation géométrique et algébrique des transforma- 
tions d'élimination ne fait que suggérer la voie rationnelle à suivre 
pour résoudre ces systèmes. Notons que toutes les décompositions 
que nous avons examinées jusqu'à présent ont à leur base justement 
les processus d'élimination. Il n’y a que la décomposition par le 
processus d’orthogonalisation qui est fondée sur une autre idée. 

Dans la pratique de calcul on utilise un petit nombre de divers 
types de matrices élémentaires. En premier lieu, il convient de nom- 
mer les matrices élémentaires unitaires que sont les matrices de Hou- 
seholder et de rotation. Parmi les matrices élémentaires non unitaires 
on peut dégager les matrices qui se distinguent d’une matrice uni- 
taire par les éléments non diagonaux d’une colonne ou d’une ligne. 
Toutes les autres matrices élémentaires sont généralement des cas 
particuliers de ces matrices-là. Nous avons déjà traité de certaines 
d’entre elles : ce sont les matrices (21.1), (24.3), (24.9). 

De nombreuses décompositions en produit de facteurs sont liées 
directement ou indirectement à la décomposition en produit de 
facteurs des matrices unitaire et triangulaire. Le mode de réalisation 
de ces décompositions n’est pas unique et, certes, leur valeur à elles 
toutes n'est pas la même du point de vue des erreurs d’arrondi. 
L'étude de ces décompositions peut être menée en appliquant l’ana- 
lyse générale des erreurs examinée dans ce qui précède. 

Considérons deux décompositions qui font appel aux matrices 
élémentaires non unitaires. Ces décompositions existent pour toute 
matrice carrée aux mineurs principaux non nuls et ont de nombreux 
traits communs avec la décomposition triangulaire. 

Désignons par R, les matrices qui ne se distinguent de la matrice 
unitaire que par les éléments extra-diagonaux de la i-ième colonne. 


$ 33] QUELQUES REMARQUES 153 
LP ER EE 


Choisissons À, de façon que dans la matrice À, = R,A tous les élé- 
ments extra-diagonaux de la première colonne s’annulent. La matri- 
ce À, se constitue de la même façon que dans la méthode de Gauss. 
Puis, on choisit R, en partant de la condition d'annulation des élé- 
ments extra-diagonaux de la deuxième colonne de la matrice 4, — 
— R:A,. I] est évident que dans ces conditions, la première colonne 
de À, ne changera pas. Après l'exécution de x pas, on aboutit à la 
matrice diagonale À4,, où 


An=R,Rh1... Rj4. 
Il en résulte que 
A=RiRs"... Ri'A,, A'—=ASR, ... RR:. (33.1) 


La réduction des matrices À, et de la matrice À, est réalisée d’une 
façon tout à fait simple et on obtient la décomposition en produit de 
facteurs non seulement de la matrice À, mais aussi de la matrice À -!. 

Le processus qui vient d’être décrit a été nommé méthode de Jor- 
dan de la décomposition d’une matrice en produit de facteurs [2]. 
On peut montrer qu'elle est équivalente à l'exécution successive de 
la décomposition en facteurs triangulaires d’après la méthode de 
Gauss et de la décomposition ultérieure de la matrice triangulaire 
supérieure en matrices élémentaires non unitaires. La méthode de 
Jordan cède en vitesse d'exécution et en précision à la méthode de 
Gauss. Elle est appliquée le plus souvent aux problèmes liés à l’in- 
version des matrices. 

Examinons ensuite les matrices S,, qui ne se distinguent de la 
matrice unité que par l’élément s,; en position (i, j). Si i£ j et pour 
un À quelconque l'élément a;; de la matrice À n'est pas nul. alors, 
en choisissant d’une façon convenable les valeurs de s;;, on peut éli- 
miner l'élément de la matrice S;;A en position (i, k). En éliminant 
les éléments dans un ordre différent, on peut obtenir un très grand 
nombre de décompositions de la matrice À en produit de matrices 
de la forme S;;. Toutes les matrices élémentaires non unitaires exa- 
minées précédemment se prêtent à la décomposition en produit de 
matrices S;,; c’est pourquoi on considère ici aussi bien la décomposi- 
tion de Gauss, que la décomposition de Jordan. 

Un intérêt particulier présente celle des décompositions qui 
s'obtient par la méthode d'élimination optimale [2]. Elle demande le 
même nombre d'opérations arithmétiques que la décomposition 
triangulaire d’après la méthode de Gauss, tout en étant plus riche 
en contenu. Cette décomposition assure une utilisation plus efficace 
de la mémoire d’un ordinateur pour la résolution des systèmes d’équa- 
tions algébriques linéaires. Mais sa précision est plus faible que dans 
le cas de la décomposition triangulaire. Le processus consiste à pré- 
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multiplier de proche en proche par les matrices 
So S 39 
Sa S 32 S23 S18, 


Sr: ... SR, ri: Sy. hs ….. Sin; 


la multiplication par chaque matrice S;; s’accompagnant de l'éli- 
mination de l’élément en position (i, j). 

Les processus d'élimination des éléments peuvent s’employer 
pour réaliser la transformation de similitude d'une matrice carrée 
en une forme plus simple. Nous avons déjà examiné au $ 32 certains 
de ces processus. Ils sont à la base de ce qu’on appelle méthodes di- 
rectes de résolution du problème complet des valeurs propres et per- 
mettent de déterminer les coefficients du polynôme caractéristique 
d’une matrice. Plusieurs méthodes de ce type sont décrites dans [6]. 


EXERCICES 


1. Démontrer que toute matrice triangulaire inférieure non dégénérée À 
d'ordre x peut être décomposée en produit 


A=NiNs ... Nn-D, (33.2) 


où N,. ... NAa_,est une matrice de la forme (24.3), et D une matrice diagonale 
composée d'éléments diagonaux de À. 

2. Démontrer que toute matrice triangulaire inférieure non dégénérée À 
d'ordre n peut être décomposée en produit 


A SN EAN .. ND, (33.3) 


où W;,.... Nn_, est une matrice de la forme (24.3), et D une matrice diagonale 
composée d'éléments diagonaux de À. 

3. Analyser les erreurs des décompositions (33.2), (33.3). Montrer que du 
point de vue de la précision, la décomposition (33.3) convient moins que la 
décomposition (33.2). 

4. Faire les exercices analogues à 1-3 pour une matrice triangulaire supé- 
rieure dégénérée. i 

5. Discuter des décompositions différentes d’une matrice orthogonale par 
la matrice de rotation et celle de Householder. Effectuer l’analyse des erreurs. 

6. Montrer que les éléments diagonaux de la matrice 4, _, de (28.1) et de la 
matrice 4, de (33.1) coïncident. 

7. Démontrer que dans la décomposition d’une matrice en produit de facteurs 
par la méthode de Jordan, la perturbation équivalente coïncide avec celle 
obtenue par décomposition triangulaire suivant la méthode de Gauss et décom- 
position ultérieure de la matrice triangulaire supérieure. 

8. Peut-on utiliser les permutations en décomposant une matrice par la 
méthode de Jordan ? 

9. Décamposer les matrices (24.3), (24.9) en produit de matrices de la 
forme S;;. 
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$ 34. Caractéristique comparative des décompositions 


La décomposition d'une matrice en produit de facteurs est à la 
base de l’établissement de la plupart des méthodes numériques de 
l’algèbre linéaire. Plus la décomposition est efficace, plus, générale- 
ment, les caractéristiques de la méthode sont meilleures. Les exigen- 
ces imposées aux décompositions par les problèmes différents étant 
différentes, il est impossible de répondre sans ambiguïté à la ques- 
tion: Quelle est la meilleure des décompositions? Cependant, 
certaines caractéristiques non seulement peuvent, mais doivent 
être comparées. Pour les décompositions dont nous avons fait l’ex- 
posé, ces caractéristiques sont consignées sur le tableau 34.1. Toutes 
les matrices sont supposées carrées et de même ordre 7. 


Vitesse. Le temps total nécessaire pour l'obtention d’une décom- 
position est au fond défini par le nombre d'opérations arithmétiques 
qu'il faut effectuer à cet effet. La colonne « Nombre d'opérations » 
du tableau 34.1 donne les termes principaux du nombre d'opérations 


Tableau 34.1 
Caractéristique comparative des décompositions 


Régime | Nombre Mémoire 
Forme des facteurs, mode d'obtention de d'opéra- | Précision | supplé- 
calcul tions mentaire 
Triangulaires 
élimination fl (2/3)n3 an 0 
schéma condensé fL (2/3)n5 p 0 
schéma condensé, 4 > 0 fL (1/3)n3 1,0 0 
Triangulaire. unitaire 
de Householder fL (4/3)n3 2,9n 2n 
rotation (cycli.) fl 2n3 2,9n 0,5n° 
orthogonalisation fl, 2n3 1,0 0,5nr° 
Triangulaire normalis., unit. 
de Househoider fl (4/3)}ns 1,8n 2n 
rotation (cyci.) fl 2n3 1,8n 0,5n? 
Bidiagonales, unitaires 
de Householder fl (8/3)r3 5,9n 4än 
rotation (cycl.) fl än3 5,8n 1,On° 
Quasi triangulaires, unitaires 
de Householder fl, (10/3)n3 5,9n 2n 
rotation (cycl.) fl 5n3 5,8n 0,5n° 
Tridiag., unitaires 
de Householder, À = A* fl (4/3)n3 18,5n 2n 
rotation (cycl.), À = 4* fl 2n3 8n 0,5n° 
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arithmétiques pour toutes les décompositions. Dans le cas des rota- 
tions, un tiers du nombre général d'opérations revient à l’addition, 
et deux tiers, à la multiplication. Pour les autres décompositions, 
le nombre d’additions et de multiplications est à peu près le même. 
La division et l’extraction de la racine carrée ne sont pas déterminan- 
tes pour le terme principal. 

La plus rapide est la décomposition triangulaire. On est fondé à 
supposer que pour aucune décomposition riche en contenu, ayant à 
la base l'élimination des éléments ou les processus d'’orthogonalisa- 
tion, le nombre général d'opérations arithmétiques nécessaires ne 
peut être inférieur à celui de la décomposition triangulaire. Mais il 
existe aussi d’autres décompositions obtenues en un même nombre 
d'opérations. Nous avons déjà parlé de la décomposition déterminée 
par la méthode de l’élimination optimale [2]. La plus lente des dé- 
compositions décrites dure 15 fois plus que la plus rapide. 


Volume de mémoire d’un ordinateur. Les problèmes algébriques, 
surtout ceux dont les matrices sont de grande taille, imposent pour 
leur résolution une réserve de mémoire importante. L'une des voies 
qui permet d'économiser la mémoire est de placer l'information sur 
le produit de facteurs à l'emplacement de la matrice initiale. Cet 
emplacement ne suffit pas toujours, souvent une mémoire supplémen- 
taire est nécessaire. Dans la colonne « Mémoire supplémentaire » 
du tableau 34.1 figurent les termes principaux du nombre de mots 
complets de l'ordinateur qu'il faut ajouter pour placer le produit de 
facteurs. On suppose que la mémoire prévue pour la matrice initiale 
s'emploie également pour les facteurs. 

La mémoire est le mieux utilisée dans le cas des décompositions 
triangulaires. Toutes les décompositions associées aux transforma- 
tions de Householder demandent très peu de mémoire supplémen- 
taire. Pour ce qui est des décompositions fondées sur le processus 
d'orthogonalisation et sur les rotations. la mémoire supplémentaire 
qu'ils demendent est très importante. Elle est grande surtout dans le 
cas de la réduction de la matrice initiale à la forme bidiagonale par 
rotations. 


Précision. C'est l’une des caractéristiques les plus importantes et le 
plus souvent décisive de toute méthode numérique, v compris de la 
décomposition d’une matrice en produit de facteurs. Comme l'ont 
montré nos recherches, la perturbation équivalente M de l’une quel- 
conque des décompositions examinées de la matrice À satisfait à 
l'inégalité 

IMIE< 7 (0) pl Alle, 


où la fonction f (7) ne dépend que de nr et du mode d'obtention de la 
décomposition. 
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La colonne « Précision » du tableau 34.1 donne les termes de la 
fonction f (7). La précision est la meilleure dans le sens de la petites- 
se de f (n) pour la décomposition obtenue par orthogonalisation et la 
décomposition triangulaire d’une matrice définie positive. Dans le 
cas d’une matrice générale, la précision d’une décomposition trian- 
gulaire dépend de la croissance des éléments. Cette croissance déter- 
mine la valeur des paramètres &, ff. Toutes les décompositions liées 
aux transformations de Householder et aux rotations assurent une 
précision parfaitement convenable. 


Régime de calcul. Les estimations de précision données par le ta- 
bleau 34.1 ne sont assurées que dans le cas où les décompositions sont réa- 
lisées d'après les schémas examinés dans ce qui précède. Toute modifi- 
cation du schéma de calcul doit être justifiée par l'analyse correspondan- 
Le des erreurs, car s’il n'en est pas ainsi, la perte en précision peut être 
funeste. 

Le symbole fl de la colonne « Régime » du tableau 34.1 signifie 
que pour obtenir la précision correspondante, on peut se borner aux 
calculs en précision simple. Le symbole fl, signifie que pour obtenir 
la précision considérée, il est de rigueur d’appliquer les opérations 
d’accumulation. 

Du point de vue de la réalisation pratique, toutes les décomposi- 
lions qui ont à la base les transformations de Householder sont très 
avantageuses. Elles possèdent de nombreux mérites dont nous allons 
indiquer les suivants. 

1. La transformation de Householder possède une estimation 
majorante de la précision efficace qui ne dépasse pas, par ordre de 
grandeur, plus de x fois l'estimation minimale possible. 

2. Le volume de calcul nécessaire pour l’exécution d’une trans- 
formation de Householder n’est que de deux fois supérieur au volu- 
me minimal possible. 

3. L'’exécution des transformations de Householder rend impos- 
sible une croissance importante des grandeurs des éléments des cal- 
culs intermédiaires. 

4. L'information sur les facteurs peut être rangée à l’emplace- 
ment de la matrice de départ. La mémoire supplémentaire nécessaire 
a cet effet est peu grande. 

La réalisation de toutes les décompositions basées sur les trans- 
formations de Householder ne présente aucune difficulté spéciale. 
Aussi, l'existence des estimations de précision efficaces est-elle un 
argument de poids en faveur de leur large application. Certes, il peut 
s'avérer Utile dans chaque cas concret d'utiliser d’autres décomposi- 
tions. Pourtant, il faut que leur emploi soit bien justifié, puisque 
dans le cas général il ne faut pas s'attendre à un gain important par 
rapport aux décompositions fondées sur les transformations de Hou- 
seholder. 
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EXERCICES 


1. Pourquoi certaines décompositions imposent l’utilisation d’une grande 
mémoire supplémentaire ? 

2. Comment peut-on réduire sensiblement la mémoire supplémentaire 
nécessaire pour ranger les facteurs obtenus par rotation ? 

3. L’algorithme de calcul sera-t-il stable pour d’autres modes de mémo- 
risation des rotations ? 

4. Quel rôle joue la complexité des algorithmes de calcul dans la comparai- 
son des décompositions ? 

> Quelle est la décomposition que vous préférez et pourquoi la préférez- 
vous 


CHAPITRE V 


RÉSOLUTION] DES SYSTÈMES 
D'ÉQUATIONS ALGÉBRIQUES LINÉAIRES 


Le présent chapitre a surtout pour objet la discussion des métho- 
des numériques de résolution des systèmes d'équations algébriques 
linéaires. C'est l’un des plus importants problèmes de l'analyse nu- 
mérique et à l’examen de ses aspects différents on prête une grande 
attention. | 

La théorie des systèmes linéaires est assez simple et connue depuis 
bien longtemps, mais la réalisation pratique des méthodes numéri- 
ques présente bon nombre de difficultés. Il en est ainsi avant tout du 
fait que de nombreuses méthodes sont très sensibles aux erreurs d’ar- 
rondi et aux perturbations des données d'entrée. Le danger réel de 
perte de précision pousse à considérer que l'étude de la stabilité 
fait partie de toute méthode numérique de résolution des systèmes 
d'équations algébriques linéaires. 

Nous passerons en revue un ensemble très vaste de questions rela- 
tives aux systèmes linéaires. Nous étudierons les méthodes numéri- 
ques de résolution des systèmes aux matrices non dégénérées et aux 
matrices rectangulaires de rang complet. Une attention particulière 
sera portée sur la discussion des particularités des systèmes instables 
et l'établissement pour ceux-ci des méthodes numériquement stables. 


$ 35. Systèmes de forme spéciale 


La résolution des systèmes d'équations algébriques linéaires de 
forme générale se ramène dans les cas courants à la résolution succes- 
sive d’un ou de plusieurs systèmes 


Gu = 1! (35.1) 


aux matrices spéciales G. Nous allons examiner maintenant les métho- 
des numériques de résolution de ces systèmes. À cet effet, nous suppo- 
serons que les matrices G ne s’apparentent pas trop aux matrices 
dégénérées. Plus précisément, elles doivent rester non dégénérées 
dans les limites de la variation des perturbations équivalentes obte- 
nues. Les systèmes dont les matrices changent leur rang dans les li- 
mites du niveau des perturbations seront étudiés plus loin. 
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D'après l’idée générale de l’analyse inverse des erreurs nous nous 


efforcerons de montrer que la solution u réellement calculée du sys- 
tème (35.1) serai la solution exacte d'un certain système perturbé 


(G+A)u=l+". (35.2) 


Pour chacune des méthodes numériques nous procéderons à la discus- 
sion des perturbations équivalentes correspondantes A, v. 


Système à matrice triangulaire. L'une des meilleures méthodes 
de résolution des systèmes à matrice triangulaire est ce qu’on appelle 
la substitution inverse. Supposons, pour fixer les idées, que la matrice 
du système soit une matrice triangulaire supérieure. En écrivant en 
détail toutes les équations du système (35.1), on a 


Erits + Bale +. + Sinün =, 
Bros +... + Bonn = lo; (35.3) 


Ennün = ln. 


Il est clair que u, = li/£gnn- Supposons QUE Un: Un-ps + « + Uj+y 
sont déjà calculées à partir des nr — i dernières équations (35.3). 
La i-ième équation donne) 


_. l— gi, deidis] — ee —$£i, nün 
=, 
£tt 
De cette façon, déterminons de proche en proche toutes les coordon- 
nées Un, Un-j» + + -» U AU vecteur u. 


Les formules obtenues sont commodes pour l' application de l'opé- 


ration d’accumulation. Soient Uy, Un_1, . .., U;+, des quantités 
réellement calculées ; il vient 


_ = His: mi 
U, — fl ( E— BE, +10 +1 £t, nün ) = 
gli 
— lie, Ellis — ce Gi, nn (1+e;) 
a i 


gii 
où €; prend les valeurs habituelles pour les erreurs. Si e;  —1,ona 


= Li Li, sis — <.. — Li. nün 


| is gi + Oii 
où 
LITRES 5 | gu | PT. (35.4) 
Mais si &; — —1, cela signifie que 
lip. tartes — ++ — fi, nün où 


[LT 
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et, alors, 
PE (Vi) — gi, trier — + — 8, nün 
Éne 
ui 
où 
[ml<!£gulo. (35.5) 


Ainsi, la solution vw réellement calculée du système (35.1) à matri- 
ce triangulaire G est une solution exacte du système perturbé (35.2). 
La matrice de la perturbation équivalente À est diagonale, et ses 
éléments respectent les inégalités (35.4). Les éléments de la pertur- 
bation équivalente v du second membre du système vérifient les 
inégalités (35.5). Notons que toujours Av = 0. 


Système à matrice orthogonale. Si la matrice G du système (35.1) 
est orthogonale, l'obtention de la solution uw est très simple. Plus 
précisément, 

u = GI, (35.6) 


d'où il résulte que u, = Y gprlp pour 1<r< n. Ces formules peu- 
p=i 


vent s’employer également pour la définition numérique de la solu- 
tion. Calculons 


= Îl, (2 Eprlp) = (1+r) 2 &prlpe (35.7) 


Ici u, prend encore les valeurs habituelles pour les erreurs. On en 
tire que u = u + 6, où 


nr 
Nôlle 2 + pluie + Vro. 


Si l’on pose A —0, v = —G6, le vecteur u sera la solution exacte 
du système de la forme (35.2). La matrice G étant orthogonale, ii 
vient 


vlle 2 + pe + ro. (35.8) 


Si G n’est pas une matrice orthogonale au sens exact, mais lui 
est proche, alors quand même la solution du système (35.1) s'obtient 
d’après (35.6). Cela signifie, au fond, la substitution de la matrice G 
par la matrice G’-!. La matrice G étant proche de la matrice ortho- 
gonale, || G | et || G’-! |]; sont proches de l’unité; donc, 


1GT—GIe=IG(E—-GCG)Ile IG IRIE—GC'C IE & 


æ||E —G'G||g. 
11—0484 
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Par conséquent, le vecteur u, dont les coordonnées sont déterminées 
par les formules (35.7), sera la solution exacte du système perturbé 
(35.2). Dans ces conditions, la perturbation équivalente v du second 
membre satisfait à l'inégalité (35.8), et la perturbation équivalente A 
de la matrice du système, à l'inégalité 


Il A Î& TE — GG Île. (35.9) 


Comme nous le montrerons au $ 38, la résolution d’un système à 
matrice proche d’une matrice orthogonale peut être organisée de 
façon que la perturbation A n'influe pas sur la précision. A cet effet, 
le calcul suivant les formules de la forme (35.7) devra être effectué 
non pas une, mais plusieurs fois. 


Système à matrice bidiagonale. Pour fixer les idées, examinons 
un système à matrice bidiagonale supérieure. On a 


Résolvons ce système encore par substitution inverse; dans ce cas, 
l'application des opérations d’accumulation ne donne aucun gain 


important en précision. Supposons que Uh, Un_y, - +, U+1 des der- 
nières z — i équations soient déjà déterminées. La i-ième équation 
donne 


Uu fl ( li gi. RUE | … (li — 81, tdi (1+ei)) (+8) (1+e:°") 
RS Ce A RL RL 
L St TE 


Où €;, €;, €; prennent les valeurs habituelles pour les erreurs. 

Si toutes les erreurs diffèrent de —1, alors €; détermine la per- 
turbation équivalente de l'élément g;,+,, et ei, e; la perturbation 
équivalente de l’élément g;,. Mais s’il y a des erreurs égales à —1, 
on en tient compte par la perturbation équivalente du second mem- 
bre /,;. La solution u réellement calculée sera la solution exacte du 
système perturbé (35.2). La matrice de la perturbation équivalente 
À est une matrice bidiagonale supérieure, et ses éléments 6,;, 6; ;4: 
vérifient les inégalités 


| Ori 1 Z | ul pr, 


35.10) 
_1 
Om l< sl gr imlP 


_1+1 


Les éléments v;, de la perturbation équivalente v respectent les 
inégalites 
[vil (+ I gul) ©. (35.11) 
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Système à matrice quasi triangulaire. Pour fixer les idées, admet- 
tons que la matrice du système soit une matrice quasi triangulaire 
supérieure. Pour résoudre ce système, il est rationnel de procéder de 
la façon suivante. Réduisons d'abord par prémultiplication par la 
suite des matrices de rotation Ts, Tes, - . ., Tn-1n Convenable- 
ment choisie, le système initial au système à matrice quasi triangu- 
laire supérieure. Puis, cherchons la solution du système obtenu à 
l’aide d’une substitution inverse. L'analyse des erreurs examinée 
précédemment couvre complètement ce cas. Si nous supposons que 


Ge Ile D ©, (35.12) 


nous démontrerons sans peine que la solution u réellement obtenue 
sera la solution exacte du système perturbé (35.2); qui plus est, 


IA Is Z V2npr*11G Ir, 


es (35.13) 
Ivile 2 V2np#*t||2Ile. 


Système à matrice tridiagonale. Ce système peut être résolu de 
la même facon qu’un système à matrice quasi triangulaire. Pourtant, 
cette fois-là l’utilisation des opérations d’accumulation ne donne pas 
de gain important en précision. Si on utilise partout seulement le 
régime de calcul à précision simple, alors, sous l'hypothèse de (35.12), 
au lieu de (35.13), on aura 


IA le 2 (3 V2+1) pr#t1lG Ir, 


4/5 (35.14) 
ville & V2npr #12 ll. 


EXERCICES 


1. Analyser les erreurs pour un système à matrice triangulaire à l’aide de 
l'élimination des éléments. Comparer les résultats qui se rapportent à des ordres 
d'élimination différents. 

2. Analyser les erreurs de la substitution inverse dans le cas des calculs 
en précision simple. 

3. Un système à matrice orthogonale peut-il être résolu par élimination 
des éléments ? 

4. Examiner l’application du processus d’élimination des éléments avec 
choix du pivot suivant la colonne (la ligne) pour la résolution d’un système à 
matrice quasi triangulaire supérieure (inférieure). Analyser les erreurs et compa- 
rer les résultats avec (35.13). 

95. Examiner l’utilisation du processus d'élimination des éléments avec 
choix du pivot suivant la colonne ou la ligne pour la résolution d’un système 
à matrice tridiagonale. Analyser les erreurs et comparer les résultats avec (35.14). 

6. Examiner l'application de la méthode de la racine carrée pour résoudre 
le système à matrice tridiagonale définie positive. Analyser les erreurs et com- 
parer les résultats avec (35.14). 
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$ 36. Résolution des systèmes aux matrices non dégénérées 


Üne part importante des méthodes numériques les plus connues 
de résolution des systèmes d'équations linéaires 


Az = b (36.1) 


est basée sur la décomposition de la matrice À en produit, de fac- 
teurs. Suivant le mode de liaison des facteurs avec la matrice À, on 
distingue deux schémas d'établissement des méthodes. 

Le premier suppose la connaissance explicite des facteurs eux- 
mêmes en lesquels se décompose la matrice À. Soit 


A = B.C. (36.2) 


La résolution du système (36.1) se ramène à la résolution de proche 
en proche des systèmes tels que 


By = b, 
Cr (36.3) 


D’après le second schéma on suppose que les matrices L, S, G 
sont trouvées et vérifient la relation 


LAS = G. (36.4) 
Alors 
ZT —= Su, (36.5) 
où u est la solution du système 
Gu = I (36.6) 
à matrice G de (36.4) et à second membre 
L — Lb. (36.7) 


La résolution du système (36.1) se ramène maintenant au calcul du 
vecteur ! d’après (36.7), à la résolution du système (36.6) et à la 
détermination du vecteur cherché z d’après la formule (36.5). Dans 
ce schéma, les matrices ZL et S sont représentées ordinairement sous 
forme de produit des matrices élémentaires. 

Toutes les décompositions de matrice que nous avons examinées 
sont de la forme (36.2), ou bien (36.4). La résolution des systèmes 
(36.3), (36.6) a été au fond étudiée au $ 35. C’est pourquoi pour les 
systèmes d'équations algébriques linéaires (36.1) les méthodes numé- 
riques peuvent s'établir en général sur la base de n'importe quelles 
décompositions discutées dans ce qui précède. 

Pour ce qui est de la vitesse et du volume de mémoire nécessaire 
d'un ordinateur, les caractéristiques de ces méthodes sont les mêmes 
que celles des décompositions correspondantes de la matrice. Le 
terme principal du nombre des opérations arithmétiques ne change 
pas, puisque en présence des décompositions (36.2), (36.4), le volu- 
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me des calculs nécessaires pour résoudre les systèmes (36.1) doit être 
d’un ordre inférieur à celui nécessaire pour réaliser les décompositions 
elles-mêmes. Aucune mémoire n'est nécessaire, au fond, par rapport 
à celle déjà utilisée pour la décomposition de la matrice. C’est pour- 
quoi pour construire une méthode numérique de résolution des systè- 
mes d'équations, possédant les caractéristiques de vitesse et de vo- 
lume de mémoire nécessaires, le choix de la forme de décomposition 
d’une matrice peut se faire en recourant au tableau 34.1. 
La liaison entre la précision de résolution des systèmes et la pré- 
cision de décomposition est beaucoup plus compliquée. Dans le cas 
général, on ne parvient qu'à montrer que la solution réellement obte- 


nue x est proche d’un certain vecteur z qui est la solution exacte du 
système perturbe 


(A+HE)z=b+e 


à perturbations E, € relativement faibles. Dans de nombreux cas il 
s’avère possible d'obtenir aussi des estimations de la forme 


IE [le <op (7) pr] Alle, 
Le le SG) pr 1lb Ile, 
IT Zi <0 (7) pr] zlle, 


où les fonctions (x), d(n), 0 (7) ne dépendent que de l’ordre de la 
matrice À et de la forme de sa décomposition. Toutes ces fonctions 
ou certaines d’entre elles peuvent être sensiblement plus grandes que 
les fonctions correspondantes f (n) du tableau 34.1. 

La précision de décomposition d'une matrice en produit de fac- 
teurs est l’une des caractéristiques les plus importantes qui détermi- 
nent l'erreur totale de la résolution du système (36.1). Comme il ré- 
sulte des formules (10.10), (36.8), on vérifie la relation 


LEE z 0 (n) pt+ va (o(m) +) pt, (86.9) 


où r est la solution exacte du système (36.1), et v,. le conditionne- 
ment spectral ou euclidien de la matrice À. Ils s'ensuit que la préci- 
sion de la solution du système ne dépend. au fond, que de la fonction 
maximale des fonctions (36.8). Mais œ (n) ne peut pas être à l'avance 
bien inférieure à f (n). C’est pourquoi la décomposition pour la- 
quelle la fonction maximale parmi les fonctions qç (n), 4 (n), 8 (n) ne 
dépasse pas sensiblement f (7), sera considérée comme efficace quant 
à la précision. Comme nous allons le montrer plus loin, toutes les 
décompositions du tableau 34.1 sont de ce genre. 

Aucun besoin n’est, probablement, de discuter les combinaisons 
les plus diverses des formes admissibles des matrices des décomposi- 
tions (36.2), (36.4). Les méthodes numériques qui utilisent des dé- 
compositions de type quelconque ne peuvent assurer la résolution 


(36.8) 
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des systèmes (36.1) à des frais de temps et de mémoire inférieurs à 
ceux des méthodes fondées sur les décompositions du tableau 34.1. 
On ne connaît aucune décomposition plus exacte que ces dernières. 
Ce qui vient d'être dit nous permet de nous borner dans la suite à la 
discussion de la précision de celles des méthodes de résolution des 
systèmes d'équations qui sont fondées sur l’utilisation des décompo- 
sitions du tableau 34.1. 

De toutes les décompositions du tableau 34.1, seule la décompo- 
sition en produit de facteurs triangulaires réalisée suivant le schéma 
condensé est de la forme (36.2). Etablissons les méthodes numériques 
correspondantes de résolution des systèmes d'équations (36.1). Alors, 
en résolvant les systèmes auxiliaires (36.3) par substitution inverse 
décrite au $ 35, nous apporterons des perturbations équivalentes 
supplémentaires dans les éléments diagonaux des matrices B et C. 
Mais des erreurs de cet ordre ont pu déjà apparaître dans tous les 
éléments des matrices B et C lors de leur calcul. On a, donc, pour les 
méthodes de ce groupe 

p (n)<2f (n), v(n) = 0 (n) = 0. (36.10) 

Examinons maintenant, la décomposition de la forme (36.4) du 
tableau 34.1. Soit la matrice G triangulaire obtenue par prémulti- 
plication de la matrice À par la suite des matrices de rotation, des 
matrices de Householder ou des matrices de la forme (24.3). De nou- 
veau, la résolution du système (36.6) apportera des perturbations équi- 
valentes supplémentaires dans les éléments diagonaux de la matrice 
G, mais des erreurs bien plus grandes pouvaient déjà apparaître dans 
tous les éléments de cette matrice lors de son calcul. Lorsqu'on cal- 
cule le second membre !, la perturbation équivalente du vecteur b se 
forme d’après la même loi que lors de la transformation de la matri- 


ce À. Par conséquent, pour les méthodes basées sur ces décomposi- 
tions, 
pin = fn), vpn) =f(n), 0 (7) = 0. (36.11) 
L'inclusion supplémentaire des permutations des lignes et des colon- 
nes dans la transformation de la matrice À ne modifie pas les rela- 
tions obtenues. 
Si la matrice À subit des transformations à droite analogues, 
alors 
pin) = f(n), (nr) =0, 8 (x) = f (n). (36.12) 
Supposons maintenant que nous utilisions les transformations 
(36.4) basées sur les transformations unitaires bilatérales de la matri- 
ce À. La matrice G peut ne pas être triangulaire. Pourtant, nous 
avons montré au $ 35 que quelle que soit sa forme, la résolution du 
système (36.6) donne des perturbations équivalentes de G et /, dont 
la dépendance de rx est bien plus faible que celle de f (7). L, S étant 
des matrices unitaires. ces perturbations équivalentes se transfor- 
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ment aisément en perturbations équivalentes respectivement de À 
et de b. Lors du calcul des vecteurs /, x, les perturbations équivalen- 
tes se forment d’après la même loi que dans le cas de la transforma- 
tion unitaire unilatérale de la matrice À. C'est pourquoi pour le 
groupe correspondant des méthodes numériques de résolution des 
systèmes d'équations on a 


ph)æf(n), PTT), 6(m)ZTf(n). (36.13) 


Examinons, enfin, l’utilisation du processus d’orthogonalisation. 
Dans la décomposition (36.4), la matrice L est présentée sous forme 
de produit des matrices (24.9) et des matrices diagonales dont pas 
plus d’un élément est distinct de l'unité. Si pour calculer le vecteur ! 
on applique conformément à (36.7) les opérations d'’accumulation, 
chacune des coordonnées du vecteur réellement calculé sera entachée 
de mêmes erreurs que lors de l'arrondissement correct de ces coordon- 
nées. Mais la matrice G est proche d’une matrice unitaire. Par consé- 
quent, la norme euclidienne du vecteur des erreurs de / peut être 
reportée avec le même poids dans la solution u. Nous avons déjà 
noté que le système (36.6) à matrice G, proche d’une matrice unitaire, 
peut être résolu avec une précision si élevée, que la perturbation 
équivalente ne fera partie que du second membre et d’après (35.8) 
sera très petite. En prenant en considération la valeur de la fonction 


f (n) pour le processus d’orthogonalisation, nous tirons que, main- 
tenant, 


p(n)=f(n), (1) =0, 0 (n)<f (n). (36.14) 
Les estimations obtenues pour la fonction (36.8) permettent de 


faire la conclusion générale sur la grandeur de l’écart du vecteur z 
réellement calculé par rapport à la solution exacte x du système 
(36.1). A cet effet, profitons de l'inégalité (36.9) et notons que tou- 
jours v4Z>1. Les relations (36.9)-(36.14) entraînent que pour les 
méthodes numériques de résolution des systèmes d’équations fondées 
sur les décompositions du tableau 34.1 on a asymptotiquement 


Hz—z|e — t+1 
NET < 2VAf (n) P : (36.15) 
Certes, cette estimation n'est vraie que dans le cas où l'algorithme 
de calcul est réalisé à toutes les itérations suivant les procédures 
décrites dans ce qui précède. 

Signalons certaines des méthodes connues dont les caractéristi- 
ques sont définies par le tableau 34.1 et la formule (36.15). 


Méthode de Gauss [6]. Elle est basée sur la décomposition (36.4). 
G est une matrice triangulaire supérieure, L est présentée comme le 
produit des matrices de la forme (24.3). Si on opte pour l’une des 
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stratégies du choix du pivot, qui prévoit la modification de l'ordre 
de révision des colonnes, alors la matrice $ sera une matrice des per- 
mutations. Si les lignes sont révisées dans un ordre modifié, L sera 
présentée comme produit de matrices (24.3) et de matrices des per- 
mutations. 


Schéma condensé de la méthode de Gauss [6]. Ce schéma est fondé 
sur la décomposition (36.2). B est une matrice triangulaire infé- 
rieure; € une matrice triangulaire supérieure. 


Méthode de la racine carrée [2]. Cette méthode est fondée sur la 
décomposition (36.2) de la matrice définie positive À. € est une 
matrice triangulaire supérieure; B = C*. 


Méthode de Householder [2]. Cette méthode est fondée sur la 
décomposition (36.4). G est une matrice triangulaire supérieure, L 
est présentée comme produit de matrices de Householder. 


Méthode de Householder normalisée [7]. La méthode est fondée 
sur la décomposition (36.4). G est une matrice normalisée triangu- 
laire inférieure (supérieure); $S (L) est présentée comme le produit 
de matrices de Householder ; L (S) est une matrice des permutations. 


Méthode de Householder bilatérale [3]. Cette méthode a à sa 
base la décomposition (36.4). G est une matrice bidiagonale; L 
et S sont présentées comme produits de matrices de Householder. 


Méthode de Householder symétrique {7]. Cette méthode est fon- 
dée sur la décomposition (36.4), elle est appliquée aux matrices de 
hermitiennes À. G est une, matrice hermitienne tridiagonale; L 
est présentée comme produit de matrices de Householder et coïncide 
avec la matrice S*. 


Méthode d’orthogonalisation [2]. Elle a à sa base la décomposi- 
tion (36.4). G est une matrice unitaire ; Z est présentée comme produit 
de matrices de la forme (24.9) et de matrices diagonales, dont pas 
plus d’un élément est distinct de l'unité. La matrice S coïncide avec 
la matrice unité. 

Toutes les méthodes passées en revue sont surtout commodes pour 
résoudre des systèmes d'équations algébriques linéaires à plusieurs 
seconds membres et à une même matrice. Dans ce cas, les décomposi- 
tions correspondantes (36.2), (36.4) ne se calculent qu'une seule fois. 
On n'a à traiter à plusieurs reprises que des systèmes simples (36.3), 
(36.6) et des transformations (36.5), (36.7). 

D’après la formule (36.15), la précision de toute méthode est 
complètement déterminée par la précision de la décomposition de la 
matrice en produit de facteurs. Mais comme le montre le ta- 
bleau 34.1, la différence sous ce rapport entre diverses décompositions 
n’est pas tellement grande. Aussi, si l’une quelconque des méthodes 
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n'assure pas la précision requise de résolution d'un système d'équations, 
il n’y a aucune raison d'espérer que pour ce même système les résultats 
seront meilleurs avec une autre méthode. Un tel système doit être consi- 
déré plutôt comme instable et résolu par l’une des méthodes décrites aux 
$S$ 39, 41. 


EXERCICES 


1. Donner des exemples des méthodes numériques de résolution des systèmes 
linéaires qui ne sont pas couvertes par l'estimation (36.15). 

2. Examiner une méthode numérique quelconque pour laquelle on vérifie 
les estimations (36.8). Démontrer que 


D Ab le € (p Cr) + (2) +8 (n)) pt 1 A Ile | 7 
3. Analyser la formule se pour des méthodes numériques et des ordi- 
pateurs concrets. Quelles valeurs de conditionnement sont susceptibles d’assu- 
rer l’erreur relative d’une solution ne dépassant pas 10-°? 


s 37. Systèmes aux matrices de rang complet 


Examinons les matrices rectangulaires m X n dont le rang coïn- 
cide avec le nombre minimal des m, n. Ces matrices s'appellent 
matrices de rang complet et présentent cette particularité que leur 
rang ne change pas quelles que soient les perturbations assez petites. 
Les systèmes d’équations algébriques linéaires aux matrices de rang 
complet ont de nombreux traits communs avec les systèmes aux ma- 
trices non dégénérées. Ces systèmes sont dits déficients si m << nr, et 
surabondants si m >n. 

Soit À la matrice du système (36.1) de rang complet. Un système 
surabondant peut être incompatible. Un système déficient est tou- 
jours compatible, mais ne possède pas de solution unique. C'est 
pourquoi nous chercherons la pseudo-solution normale [1] du systè- 
me (36.1), c’est-à-dire le vecteur x, tel que, parmi tous les vecteurs x 
minimisant la fonctionnelle du résidu 


Do(z)=1| Az—b 1, 


il possède la plus petite des normes euclidiennes. 

L'invariance de la norme euclidienne par rapport aux transfor- 
mations unitaires permet de ramener le problème de recherche de la 
pseudo-solution normale du système de forme générale à un problè- 
me plus simple. En effet, soumettons les matrices unitaires L, S à 
une transformation (36.4) quelconque. Alors, on vérifie sans peine 
que dans les notations de (36.5)-(36.7) 


Do(x)=|l4z— dE = I] Gu—21E = Do (u) : 


de plus, ||xz |[£g = [lu [|=. Par conséquent, la détermination d’une 
pseudo-solution normale du système (36.1) est équivalente à la réso- 
lution du même problème pour le système (36.6). Mais la transfor- 
mation (36.4) peut toujours être choisie de façon que la matrice G 
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soit suffisamment simple, par exemple, triangulaire, trapézoïdale 
normalisée, bidiagonale, etc. Cette transformation peut servir de ba- 
se pour l'établissement des méthodes numériques suffisamment effi- 
caces. 

Toutefois, les systèmes à matrices rectangulaires peuvent être 
résolus d’une autre façon. On sait [1] que l’unique pseudo-solution 
d’un système surabondant (36.1) à matrice À de rang complet est la 
solution ordinaire du système 


A*Az = A*b (37.1) 


à matrice carrée non dégénérée A*A d'ordre nr. La solution normale 
z, d’un système déficient (36.1) s'obtient à partir de la résolution 
du système 

AA*y = b (37.2) 


à matrice carrée non dégénérée AA* d'ordre m par simple transfor- 
mation 


Zo = A*y. (37.3) 


C'est pourquoi le calcul immédiat de la matrice et du second mem- 
bre des systèmes (37.1), (37.2) et la résolution ultérieure de ces 
systèmes à l’aide de n'importe quelle méthode parmi celles discu- 
tées précédemment, sont parfaitement acceptables pour la conception 
des méthodes numériques de résolution du problème de départ. 

Formellement, les relations (37.1)-(37.3) se remplacent sans 
peine par d’autres. Examinons la résolution d'un système surabon- 
dant. Si x, est sa pseudo-solution exacte, le résidu 


ro = b — Ax (37.4) 
respecte, d’après (37.1), la relation 
A*r — 0. 


De ce fait, au lieu du système (37.1), on peut résoudre le système 


Las ol [2 | L Lo | (37.5) 


Au lieu des relations (37.2), (37.3), on obtient le système analogue 


4 5]K]-b) _ 


Ici z, coïncide avec la solution y, du système (37.2). Les matrices 
des systèmes (37.5), (37.6) sont des matrices hermitiennes non 
dégénérées d'ordre m + n. 

Ainsi, il existe trois modes différents pour construire les méthodes 
numériques de résolution des systèmes aux matrices rectangulaires 
de rang complet. Le premier mode est lié à la transformation unitaire 
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de la matrice et à la minimisation de la fonctionnelle du résidu; le 
deuxième, à la résolution des systèmes (37.1), (37.2); le troisième, à 
la résolution des systèmes (37.5), (37.6). On ne voit pas d'emblée 
auquel de ces modes il faut donner la préférence. D'autant plus qu'ils 
imposent tous à peu près aussi bien les mêmes durées de résolution, 
que les volumes de mémoire utilisés. Aussi, leur comparaison sui- 
vant la précision s’impose-t-elle. Nous allons débuter par l'explo- 
ration du premier mode. 

Supposons que le système soit déficient. Réduisons la matrice À 
en postmultipliant par la matrice unitaire S à la matrice triangu- 
laire inférieure G. Soit 


G=1(6 : 0], (37.7) 


où G est une matrice triangulaire inférieure non dégénérée d'ordre 
m. Si la solution normale u, du système (36.6) est mise sous la forme 


Uy 
Up = ss 
0 u° ? 


où le vecteur u, est de dimension m, alors on a pour les vecteurs 
U,, U 
0? 0 


Gu;=l, u;=0. (37.8) 


Le système (37.8) se résout suivant l’un des algorithmes discutés 
précédemment, par exemple par substitution inverse. 

L'analyse des erreurs d’arrondi du processus décrit se fait d’après 
le même schéma que pour les systèmes à matrice non dégénérée. La 
seule différence est que là il faut tenir compte de l'écart entre les 
matrices de transformation et les matrices unitaires. Pour réduire 
la matrice À à la matrice G, le plus avantageux est d'utiliser les 
transformations de Householder. Dans notre cas, conformément à 
l'estimation (16.6), on obtient que le vecteur x, réellement calculé 
satisfait à la relation 


lzo—20 lle it = 
la = <9,8mvip" ‘!, (37.9) 
où vi = || A be || A* [l.e, Ou, ce qui revient au même, 
vi =|lG ll, el Ge, »- (37.10) 


Supposons ensuite que le système soit surabondant. Réduisons la 
matrice À par prémultiplication par la matrice unitaire ZL à la 
matrice triangulaire supérieure G. Il est évident que G peut être 


mise sous la forme 
G Cd 
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où G est une matrice triangulaire supérieure non dégénérée. Soit 


l . 
Es l” * 


où le vecteur L’ est de dimension n. Alors, l’unique pseudo-solution 
u, du système (36.6) satisfait à l’équation Gu, = l’. Dans ce pro- 
cessus là encore le plus avantageux est de recourir à la transforma- 
tion de Householder. L'analyse des erreurs montre que conformé- 
ment à l'estimation (16.7), le vecteur x, réellement calculé vérifie 
la relation 


Zo— n Re + -t+ +[ {a+ l” ++ 7 
Il fee LE L9,8nvip { 1L 4,9nvAl(vi + 1) : LE P LS 1 (37.12) 


Maintenant, au lieu de (37.10), on a 
va=1lG ll, sllG" Île, 5. 


L’estimation obtenue (37.12) montre que pour résoudre un systè- 
me surabondant par le premier mode, l'analogie sous rapport de la pré- 
cision avec les systèmes possédant une matrice non dégénérée n’a lieu 
que dans le cas où le second membre est bien en accord avec la matrice, 
c'est-à-dire le rapport || 2” |l£/|| L’||l£ est suffisamment petit. Si 


(vi + 1) TEA lle 2, (37.13) 


l'estimation (37.12) coïncide, au fond, avec (37.9) dans le cas, évi- 
demment, où m est remplacé par #. Mais si 


(à +1)" IA L'Ile D 2, (37.14) 


dans son ensemble l’estimation (37.12) devient 


role Z ce NUE te - 
— "© L4,9n 2 ——— L | 
Uzole * ”? (4) NE Ie ? BE) 

Dans les problèmes pratiques, on tombe souvent sur des systè- 
mes surabondants d'équations linéaires qui respectent la condition 
(37.14). Pour dire quelle est la précision de résolution de ces systè- 
mes, examinons le deuxième mode. 

Calculons la matrice et le second membre du système (37.1) en 
utilisant l’opération d'’accumulation. Alors on aura en réalité le 
système 
(A*A + E)xz = A*b+e, (37.16) 


* 


ou 


= À —; 
IE |ls PE 111 A*A ÎLE, 
(37.17) 


ER 
Île Île 7 #11 A*b ls. 
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En résolvant le système (37.16) par l’une des méthodes discutées dans 


ce qui précède, nous obtiendrons un certain vecteur A tel que d’après 
(36.15), (37.17) la relation 


Linie 2 (2f(n) 41) vara pri 


Il Zo ÎLE 


soit observée. Pour la norme euclidienne vasa (va); pour la 
norme spectrale, l'inégalité devient égalité. C’est pourquoi en utili- 
sant, pour résoudre le système (37.16), par exemple, la méthode de la 
racine carrée, on obtient que 


Il Zo— 20 le — +12 —t+1 = 
Inde < 2 OAFP (21:20) 


Si la condition (37.14) est observée, l'estimation (37.18) est bien 
meilleure que (37.15). Si dans la condition (37.14) le signe « bien 
plus grand » est remplacé par le signe « plus grand », l'estimation 
(37.18) reste quand même préférable. 

De la sorte, en comparant les deux premiers modes, on peut tirer 
la conclusion suivante sur la précision de la résolution d'un système 
d'équations surabondant. Si le second membre du système s'accorde 
bien avec la matrice, pour résoudre un tel système, il est avantageux 
d'effectuer la transformation unitaire de la matrice sans passer au 
système (37.1). Lorsque l'accord est mauvais, des résultats plus précis 
sont fournis par la solution directe du système (37.1). La condition d’un 
bon accord est celle de l'observation de l'inégalité (37.13). 

Notons que cette conclusion concerne seulement la précision due 
à l'influence des erreurs d'arrondi. Pour ce qui est de la précision 
due à l’erreur des données d'entrée, elle est certes la même, quels que 
soient les modes de résolution du système, étant déterminée, par 
exemple, par l'estimation (16.7). 

L’estimation (37.9) est si bonne, que puur résoudre un système 
déficient d'équations linéaires (36.1) il n'y a aucune raison de passer 
au système (37.2). Mais si quand même on cherche la solution norma- 
le d’un tel système d’après (37.2), (37.3) et si le système (37.2) est 
résolu par la méthode de Ia racine carrée, on obtient un certain vec- 
teur zx, qui de nouveau satisfait à l'estimation (37.18). Mais nous 
n’allons pas nous attarder à la déduire. 

Le troisième mode de résolution du système initial (36.1) ne 
donne rien de nouveau par rapport au premier. Si la matrice À est 
réduite à la forme triangulaire par transformation unitaire, alors, 
malgré la différence extérieure des schémas de calcul, les résultats 
coincident, y compris les erreurs d’arrondi. Néanmoins, dans certains 


cas, cette méthode s'avère utile, par exemple, pour améliorer la 
pseudo-solution. 
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EXERCICES 


1. Démontrer qu’une matrice poste un rang complet si et seulement si 


aucune perturbation ne conduit à l’augmentation de son rang. 
2. Démontrer qu’une matrice m X n de rang complet vérifie les relations 


At= A* (AA*)"1, mEn, 
At—(A*A)" 1 4*, m>n. 


3. Soit la matrice C de rang complet. Démontrer que pour que la matrice A 
de même dimension ait le rang complet, il suffit de satisfaire pour une norme 
quelconque à l'inégalité 

IC*INTA—CI<1. (37.19) 


+ 


4. Démontrer que la pseudo-solution normale du système à matrice de 
rang complet est fonction continue des éléments de la matrice et du second mem- 


bre dans un voisinage assez petit de leur variation. 
5. Applique-t-on l'analyse inverse des erreurs des termes de la perturbation 


du système (36.1) pour évaluer la précision de la résolution du système par le 


deuxième mode ? 
6. En quoi réside la différence de précision des deux premiers modes ? 
7. Soit À la matrice m X nr de rang complet. Introduisons la notation 


E A 
Le DU MES 


E A* 
ke 0 }. ds 
Démontrer que les estimations 
I Bllz<1+1 Al 1 B-11le 141 At Ie+ 1 A*1S 


sont observées. 
8. Démontrer que les systèmes (37.5), (37.6) déterminent la même pseudo- 


solution normale que les systèmes aux matrices 


/\ 
a 


aE | les ea 
7.20 
Bas oJ L4 o Be 
et aux seconds membres de (37.5), (37.6). Ici, «, B sont des nombres non nuls 


quelconques. | 
9. Comment choisir les paramètres &, B pour que le conditionnement des 


matrices (37.20) soit le plus petit ? 
10. Comment choisir les paramètres &, B pour que les systèmes aux matri- 
ces (37.20) assurent la précision maximale de la pseudo-solution normale du 


système (36.1)? 


$ 38. Amélioration de la solution 


Toutes les méthodes numériques de résolution des systèmes d’équa- 
tions examinées jouissent d'une propriété commune. C’est que la 
solution (la pseudo-solution) réellement calculée est exacte pour un 
certain problème perturbé. Les études réalisées montrent que ces 
perturbations sont très petites et souvent commensurables avec les 
erreurs d'arrondi des données d'entrée. Si les données d’entrée sont 


$ 38] AMÉLIORATION DE LA SOLUTION 119 


obtenues par mesures ou calculs préalables, ordinairement elles con- 
tiennent déjà des erreurs bien plus grandes. Dans ce cas, toute ten- 
tative d'améliorer la solution (la pseudo-solution) approchée sans recou- 
rir à des renseignements supplémentaires sur le problème exact ou sur les 
erreurs des données d’entrée sera injustifiée, puisqu'il n'existe aucun 
critère qui puisse faire préférer une des solutions (pseudo-solutions) 
approchées à une autre. 

La situation change sensiblement si dans un ordinateur les don- 
nées d'entrée sont exactes. Alors, parmi toutes les solutions (pseudo- 
solutions) approchées qui correspondent à un niveau défini des per- 
turbations équivalentes, on peut choisir celle qui est la plus proche 
de la solution exacte. Ce sera, généralement, la solution (pseudo- 
solution) exacte correctement arrondie. 

Examinons d’abord le système d'équations (36.1) à matrice non 
dégénérée. Soit x la solution exacte: rt”, une approximation de cet- 
te solution obtenue par une méthode quelconque. Introduisons la 
notation 


z= 20 EAU, (38.1) 
En portant cette expression dans (36.1), on obtient 
AA =r3, (38.2) 
où 
ra =b— Ar. (38.3) 


Admettons que le mode de calcul du résidu (38.3) et la méthode 
numérique de résolution du système (38.2) sont tels que la correction 


réelle A% vérifie la relation 


ILAGD — Ad [fe 
7 HAE 6, (38.4) 
où 6 est sensiblement inférieur à l’unité. La difficulté maîtresse que 
présente la satisfaction à cette expression consiste à choisir le mode 
de calcul correspondant du résidu. Si 2‘ est voisin de la solution 
exacte, le résidu devient petit et son calcul direct en précision 
simple conduit à de grandes erreurs relatives. Par ailleurs, la peti- 
tesse absolue du résidu peut donner lieu à des erreurs importantes 
dans la correction A‘, le comportement des erreurs d’arrondi au 
voisinage du zéro machine étant irrégulier. C’est pourquoi le plus 
rationnel est de procéder de la façon suivante. 

1. Calculer le résidu dans le régime d’accumulation. 

2. Normaliser le résidu. 

3. Résoudre le système (38.2) par l’une des méthodes respectant 
la condition (36.15). 

4. Multiplier la correction calculée par la valeur inverse du 
facteur de normalisation. 
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Dans ce cas la correction sera déterminée avec une précision rela- 
tive élevée. Des calculs fort simples montrent que 


8 Z (2f(n) + 3/2) vap-t#i. (38.5) 


Par conséquent, pour toutes les matrices qui ne sont pas pathologi- 
quement mal conditionnées, le nombre 6 de (38.4) peut en effet 
être considéré comme sensiblement inférieur à l'unité. 

La résolution du système (38.2) s'achève par le calcul de l’appro- 
ximation successive z*+b de la solution exacte zx: 


gt D 2 70 EAU LU, (38.6) 


où vs est le vecteur des erreurs produites par l'addition de 2 et 


de A. Si le nombre 8 est sensiblement inférieur à l'unité, le vec- 
teur z*+b est commensurable en grandeur avec la solution exacte. 
C'est pourquoi, sans limiter sensiblement la généralité, on peut 
admettre que 


ve lle 25 zllep- +. (38.7) 


Ensuite, (38.1), (38.6) entraînent que 
AUD AU FU), 


k9 
d'où, compte tenu de (38.4), (38.7), on obtient que 
M AË Ie <ON A Ie + Île #1. (38.8) 


Etablissons d’après le processus décrit la suite des vecteurs 
{x%} à partir d’un vecteur r, quelconque, par exemple, à partir 
d’un vecteur nul. On tire de (38.8) que 


Tim | AŸ|L= || 7Î|e p-t+1/2 (1 —0). 
R—oc 


Si 6 est sensiblement inférieur à l'unité, tous les vecteurs zt* à 
partir d’un certain # se distinguent de la solution exacte x à peu 
près de la même façon que se distingue de x la solution exacte cor- 
rectement arrondie. Généralement, la suite {z} converge vers 
la solution exacte correctement arrondie. 

De la sorte, si les données d’entrée d’un système à matrice non 
dégénérée sont exactes, on peut établir la suite des vecteurs {1*} 
qui détermine une approximation très précise de la solution exacte. 
Le processus d'amélioration est d’autant plus efficace, que le nom- 
bre 6 est plus petit. Dans les cas courants, il suffit d'obtenir 2 ou 3 
vecteurs de la suite {:*} pour atteindre la précision requise. Mais 
même la construction d’un plus grand nombre de vecteurs n’entraine 
pratiquement pas une augmentation perceptible du temps total de 
la résolution du problème. La résolution des systèmes (38.2) peut 
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être très rapide, si on utilise pour résoudre tous les systèmes succes- 
sifs possédant d’autres seconds membres la décomposition de la 
matrice À en produit de facteurs réalisée lors de la résolution du 
premier système. 

Le processus d’amélioration donne lieu à un fait curieux. Rappe- 
lons que la première approximation de la solution est déjà une solu- 
tion exacte d’un système perturbé. Les perturbations sont ici non 
seulement petites, mais encore elles ne dépendent pas pratiquement 
du conditionnement de la matrice. Une solution exacte correctement 
arrondie est également une solution exacte d'un certain système 
perturbé. Là encore, les perturbations sont petites et ne dépendent 
pas du conditionnement de la matrice. Pour les méthodes de réso- 
lution les plus précises, ces perturbations sont commensurables 
quant à la grandeur. C’est pourquoi lors de l'amélioration successive 
de la solution, il n'y a aucune raison de prévoir une diminution no- 
table des normes des résidus. Qui plus est, à certains pas elles peuvent 
même augmenter. Malgré cela, la précision des approximations 
successives 2 ne cesse de s'améliorer. Le processus d'amélioration 
décrit est lié non pas à la diminution des perturbations équivalentes ou 
à la grandeur des résidus, mais à la suppression de l'influence exercée 
par le conditionnement de la matrice du système initial sur l'erreur de 
la solution. 

L'extension du processus décrit aux systèmes à matrices rectan- 
gulaires de rang complet présente des particularités caractéristiques. 
Ces particularités sont définies avant tout par le mode retenu comme 
base du processus et choisi parmi les méthodes de résolution de tels 
systèmes, examinées au $ 37. 

Soit le premier mode à utiliser. Supposons qu’on ait à résoudre 
un système non compatible surabondant (36.1). Si 2{*) est une 
certaine approximation de l'unique pseudo-solution zx,, introdui- 
sons la notation x, = æ#*) + AG). Mais 


I Ao—b |fE = 1] AAG° —r |fE, 


rx =b— Arf). (38.9) 


La correction A{*) peut donc s’obtenir par minimisation de la fonc- 
tionnelle du résidu du système 


AA = rs. (38.10) 


I1 peut sembler qu’en calculant le résidu (38.9) avec une précision 
relative élevée, nous trouverons avec une précision relative élevée la 
correction A%) comme l'unique pseudo-solution du système (38.10). 
Or, pratiquement, la tentative d’« améliorer » la pseudo-solution 
d’un système surabondant aboutit à la situation suivante. L’accord 
du réseau de la pseudo-solution avec la matrice sera d'autant plus 


12—0484 
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mauvais et la précison relative de la correction obtenue d’après le 
premier mode de résolution du système (38.10) d'autant plus mau- 
vaise elle aussi, que l’approximation retenue sera plus proche de la 
pseudo-solution. 

Ainsi, Le premier mode de résolution d'un système surabondant ne 
peut pas être mis à la base de l'amélioration. On ne peut pas l'utiliser 
non plus pour l'amélioration de la solution normale d'un système défi- 
cient. Dans le meilleur des cas on peut espérer d’obtenir un bon voi- 
sinage avec une solution quelconque. Dans ces conditions, l'écart 
par rapport à la solution normale peut être important. 

Pour des systèmes aux matrices rectangulaires de rang complet 
les processus d’amélioration effectifs peuvent s'établir sur la base 
des deuxième et troisième modes de leur résolution. Rappelons que 
ces modes sont liés à la résolution des systèmes (37.1), (37.2) ou (37.5), 
(37.6), dont les matrices sont non dégénérées. 

Examinons l'application du deuxième mode à la résolution d'un 
système surabondant. Pour la correction A{*) on obtient le système 


AAA = 58, 


sh = 4* (b— Axf). 


Pour calculer le vecteur s, avec une précision relative élevée il ne 
suffit déjà plus d'utiliser les opérations d’accumulation. Toutes 
les opérations arithmétiques de calcul de s, doivent être réalisées en 
double précision. 

Supposons, ensuite, qu’un système déficient soit résolu suivant 
le deuxième mode. Soit y{*) une certaine approximation de la solu- 
tion y, du système (37.2). Si 


k k 
Yo = yo Que VS a 
alors, pour la correction V{*), on obtient le système 
AA _— Rs 


lp = b — AA‘ y). 


Là encore pour calculer le vecteur {, toutes les opérations arithmé- 
tiques doivent être effectuées en double précision. La conservation 
de la dernière approximation y) et la transformation (37.3) doivent 
également se faire en double précision. 

La nécessité d'utiliser les calculs en double précision peut pré- 
senter certaines difficultés pour la réalisation pratique des méthodes. 
Cet inconvénient est supprimé dans le processus d'amélioration fondé 
sur le troisième mode de résolution des systèmes aux matrices rectan- 


gulaires. 
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Dans le cas des systèmes (37.5) et (37.6), les processus d’amélio- 
ration sont presque les mêmes; nous allons donc examiner seulement 
le cas du système (37.5). Soient r{), r(*) les approximations respec- 
tives de la pseudo-solution x, et de son résidu r,. Introduisons la 


notation 
2e] a de on) 
To z$P 65” 


Alors, pour les corrections o{*), 6{*), on obtient le système 
E A][o] [ea 
A* O5] LA] 


ex=b— Ar hi = — Arf). 


Pour calculer ces vecteurs avec une précision relative élevée il 
suffit parfaitement d'utiliser les opérations d'accumulation. 

La multiplicité de la résolution des systèmes n’augmente pas 
sensiblement le temps de calcul. Si on applique la méthode de la 
racine carrée aux systèmes (37.1), (37.2), les décompositions des 
matrices A*A et AA*, obtenues au premier pas, sont utilisées égale- 
ment à tous les autres pas. Pour résoudre les systèmes (37.5), (37.6) 
et dans les processus d'amélioration liés à ces systèmes, il est avanta- 
geux de procéder au préalable à la transformation unitaire de la 
matrice À en matrice G de forme simple. Si 


LAS = G, 


où L, $ sont des matrices unitaires, cela détermine également la dé- 
composition des matrices de (37.5), (37.6). Plus précisément, 


Le oo s)le o)le se] 


k Fe (38.1) 
PAIN RS 


Les décompositions (38.9) s’emploient à tous les pas du processus 
d'amélioration. Il est utile de tenir compte également des relations 
suivantes : 


AA = S (G*G) S*, AA* — L* (GG*)L. 


La vitesse de convergence des processus d’amélioration est dé- 
terminée par les valeurs correspondantes de 6 de (38.4). Si on appli- 
que les algorithmes de résolution des systèmes d'équations aux matri- 
ces de rang complet examinés précédemment, alors, pour les systè- 


12* 
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mes (37.1), (37.2), 


8<314/f 14 1ip"t+#, (38.10) 
et pour les systèmes (37.5), (37.6), 
8 <7,1g[| All (1+11 4° Île)? p°t+i. (38.11) 


Ici g = min {m, n}. 

La différence entre les estimations (38.10) et (38.11) est liée en 
premier lieu à la différence de principe entre les systèmes (37.1), 
(37.2) d'une part, et (37.5), (37.6) de l'autre. Supposons, par exem- 
ple, que la matrice et le second membre du système initial soient 
multipliés par le même nombre «. Alors ses pseudo-solutions ne 
changent pas et la solution du système auxiliaire (37.2) est une fonc- 
tion homogène de &. C'est pourquoi toutes les estimations obtenues 
auparavant de la précision des pseudo-solutions, y compris l'estima- 
tion (38.10), sont invariantes à une telle multiplication. Par contre, 
les composantes de la solution des systèmes (37.5), (37.6) ne seront 
pas des fonctions homogènes de &, ce qui définit justement l’appari- 
tion de la relation inhomogène du second membre de (38.11). 

Les études ci-dessus sont liées formellement au processus d'amé- 
lioration, mais en fait son intérêt est bien plus grand. Remarquons 
qu'un trait important dans la justification du processus est le fait 
que les erreurs relatives de toutes les corrections sont bornées supé- 
rieurement par une constante inférieure à l'unité. Dans ces condi- 
tions, on ne tient pas compte du tout du mode d'obtention des appro- 
ximations successives elles-mêmes. Donc, si nous établissons un 
processus jouissant par rapport aux corrections d’une propriété ana- 
logue, c’est que par là même nous construisons une certaine méthode 
itérative de résolution des systèmes d'équations linéaires algébriques. 

Examinons l'un des procédés d’établissement des méthodes ité- 
ratives. Soit la matrice À du système (36.1) mise sous la forme 


A=B+C, (38.12) 
où B est une matrice non dégénérée. Supposons qu'on connaisse l'ap- 


proximation 2* de la solution exacte r. La correction satisfera 
alors au système (38.2). Remplaçons le système (38.2) par le système 


BA rs. (38.13) 
(38.12), (38.13) entraînent que 


B (A%—A®) = — CA®. 
Par conséquent, 


LA AO 1 B-1c 
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Si on observe la condition 


I BC I] <<1, (38.14) 
la suite des vecteurs 


Zu = 2 + À (38.15) 


convergera vers la solution exacte zx. 
Le schéma de calcul de telles méthodes est, généralement, d'une 
autre forme. Plus précisément, on écrit la relation récurrente 


Brr+, =db—Czx, (38.16) 


qui associe deux approximations successives. Cette relation peut 
s'obtenir directement de (38.13), (38.15). 

En choisissant la décomposition (38.12), il faut veiller non seule- 
ment à ce que soit observée la condition (38.14), mais encore que la 
résolution des systèmes à matrice B soit bien plus simple que celle 
des systèmes à matrice À. A cet effet la matrice B est choisie de fa- 
çon qu’elle soit ou bien suffisamment simple, ou bien telle qu’elle 
se transforme ou se décompose aisément en produit de facteurs pre- 
miers. La réduction de la matrice ou sa décomposition en produit de 
facteurs ne se fait bien sûr qu'une seule fois. 


EXERCICES 


1. Supposons que la matrice À du système (36.1) soit proche d’une matrice 
unitaire. Démontrer que la suite des vecteurs z,41 — zx + AÀ* (b — Azxx) con- 
verge ne la solution exacte du système (36.1), quelle que soit l’approximation 
initiale xo. 

2. Examinons le système d'équations linéaires de la forme 


z = Dr + f, (38.17) 


où|| D | << 1. Démontrer que la suite des vecteurs r,41 = Dzx + f converge 
vers la solution exacte du système (38.17) quelle que soit l’approximation ini- 
tiale r,. Ce processus s'appelle méthode itérative simple. 

3. Supposons que les éléments diagonaux de la matrice À sont dominants. 
Prenons comme matrice B de la décomposition (38.12) la parue diagonale 
de À. Dans ce cas, le processus (38.16) s'appelle méthode de J'acobi. Ecrire les 
conditions suffisantes de la convergence en utilisant diverses normes matri- 
cielles et la condition (38.14). 

4. Supposons que la matrice À du système (37.1) soit définie positive Soit 
dans la décomposition (38.12) la matrice B triangulaire inférieure, et la matri- 
ce C, strictement triangulaire supérieure. Dans ce cas, le processus (38.16) 
s'appelle méthode de Nekrassov. Démontrer que la suite des vecteurs de (38.16) 
converge vers la solution exacte du système (36.1) quelle que soit l’approxima- 
tion initiale. 

5. Démontrer que pour que la suite des vecteurs déterminée par le proces- 
sus (38.16) converge vers la solution exacte du système (36.1) quelle que soit 
l’approximation initiale, il faut et il suffit que toutes les valeurs propres de la 
matrice B-1C soient inférieures en module à l’unité. 

6. Analyser les erreurs qui apparaissent dans le processus (38.16). 
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$ 39. Particularités de la résolution 
des systèmes instables 


Les études réalisées des systèmes d’équations algébriques liné- 
aires ont montré que si le rang d’une matrice est complet, si le ni- 
veau des erreurs des données d’entrée est limité de la façon corres- 
pondante et si la précision des calculs est améliorée, la solution 
(pseudo-solution) du système peut s’obtenir avec n’importe quelle 
précision donnée. Mais ces études montrent aussi autre chose. Si le 
niveau des erreurs des données d’entrée et la précision des calculs 
sont fixés, il se trouve toujours des systèmes aux valeurs du condi- 
tionnement si grandes que pour ces systèmes la garantie de la préci- 
. quelle qu’elle soit de la solution (pseudo-solution) est impos- 
sible. 

Ces systèmes sont dits instables ou mal conditionnés. Dans l’en- 
semble, ils sont caractérisés par le fait qu’un changement insigni- 
fiant des conditions de calcul peut entraîner des erreurs inadmis- 
sibles dans la solution. A l'origine de ceci il n’y a qu'un fait: dans 
la limite de variation des erreurs des données d'entrée ou des pertur- 
bations équivalentes, la matrice du système devient ou bien matrice 
de rang incomplet, ou bien matrice qui lui est proche. Toutes les 
difficultés de résolution des systèmes instables ne sont liées, au 
fond, qu'aux difficultés des systèmes aux matrices de rang incomplet 
dans les conditions de la perturbation des données d'entrée et de 
l'influence des erreurs d’arrondi. Ces difficultés ne sont pas peu 
nombreuses. 

Dans le plan théorique, la résolution des systèmes aux matrices 
de rang incomplet ne se distingue pas de la résolution des systèmes 
aux matrices rectangulaires de rang complet examinés plus haut. 
Soit un système quelconque 


Az = b (39.1) 


d'équations linéaires. Cherchons de nouveau sa pseudo-solution 
normale, c’est-à-dire le vecteur x, tel que parmi les vecteurs mini- 
misant la fonctionnelle du résidu il ait la norme euclidienne mini- 


male 
D (x) = || Az —b |[E. 
On sait [1] que dans ce cas 
Zo = A*b, 


où A* est la matrice pseudo-inverse de la matrice À. 

Toutefois, la ressemblance extérieure entre les systèmes à matrices 
de rang complet et incomplet est illusoire. En réalité il existe entre 
eux une différence de principe. 

Si la matrice d'un système est de rang complet, dans un certain voi- 
sinage de la variation des données d'entrée la pseudo-solution normale 
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est continue. Mais si la matrice du système n'est pas de rang complet, 
dans tout voisinage de la variation des données d'entrée, la pseudo-solu- 
tion normale est discontinue. 

Cette différence est si importante qu'elle oblige de considérer la 
discussion de la dépendance de l'erreur de la pseudo-solution nor- 
male par rapport à la perturbation des données d'entrée et des erreurs 
d'arrondi, comme partie intégrante obligatoire de toute méthode 
numérique de résolution des systèmes à matrices de rang incomplet. 
Or, les études de cette sorte sont encore bien rares. Probablement, le 
rôle n’est pas petit en cela de l'impression de légèreté avec laquelle 
les mathématiques des calculs exacts établissent des méthodes « effi. 
caces » de résolution des systèmes d'équations. Or, cette impression 
est due au fait qu’on ne porte pas attention aux problèmes compliqués 
qui se posent tout près. 

Les nombreuses recettes permettent de résoudre tout système par 
la méthode de Gauss, par exemple, avec choix du pivot suivant toute 
la matrice. Si la matrice est de rang complet, après l'exécution de 
toutes les transformations on obtient le système à matrice triangu- 
laire non dégénérée. Mais si la matrice est de rang incomplet, un 
plus petit nombre de transformations conduira à un système à matri- 
ce triangulaire, dont l’une ou quelques lignes seront composées de 
zéros. Du point de vue des mathématiques classiques, ce cas là est 
plus favorable, puisqu’aucun besoin n’est de procéder à des trans- 
formations ultérieures quelconques. Dans les deux cas, la résolution 
d’un système à matrice triangulaire ne présente pas de difficultés 
particulières. L'exécution des transformations permet également 
d'établir sans peine le fait de la compatibilité du système de départ. 

Des recettes de cette sorte ont un aspect très attrayant. On ne met 
presque pas en doute qu’une modification insignifiante des méthodes 
numériques déjà connues suffit pour rendre possible la résolution des 
systèmes de forme générale, du moins, des systèmes compatibles. Il 
semble clair aussi, par quelle voie il faut progresser pour modifier 
les méthodes. Ces modifications ont à la base l'idée suivante. 

Les erreurs d’arrondi sont petites. Généralement, les erreurs des 
données d'entrée sont petites elles aussi. Résolvons le système par 
une méthode directe quelconque, par exemple par la méthode de 
Gauss avec choix du pivot. Si la matrice exacte est de rang incom- 
plet, des transformations réelles conduiraient, probablement, à un 
système à matrice triangulaire dont tous les éléments des dernières 
lignes seront petits. Rejetons ces équations et cherchons les solu- 
tions du système obtenu. Elles constitueront une assez bonne appro- 
ximation des solutions du système exact. 

Cette idée a été à la base de nombreuses publications qui conti- 
nuent de paraître en un nombre énorme. Elles diffèrent toutes l’une 
de l’autre seulement par l’utilisation de différentes transformations 
du système initial et par l’application de différents critères du rem- 
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placement de « petits » éléments du système transformé par des zé- 
ros. Pourtant cette idée n’a pas conduit d'emblée à la résolution 
efficace des systèmes d’équations de forme générale. Qui plus est, 
longtemps il n’était pas clair si, en général, il est possible de cons- 
truire un processus stable de résolution des systèmes à matrices de 
rang incomplet dans les conditions de perturbation des données d’en- 
trée et de l’influence des erreurs d’arrondi. 

C’est seulement après une exploration détaillée du mécanisme tout 
entier de l'apparition de l'instabilité et l'obtention des moyens garan- 
tis susceptibles de rendre négligeable son action qu'on a obtenu le suc- 
cès. Il s’est avéré que pour déterminer la pseudo-solution normale, le 
plus rationnel est d'utiliser les transformations unitaires du système 
de départ. Mais à la différence des systèmes à matrices de rang com- 
plet, l’application de ces transformations ne garantit pas la stabilité 
générale. 

Supposons qu'à la suite des transformations unitaires on ait obte- 
nu un système à matrice bidiagonale G d'ordre n, dont les éléments 
S1J sont 

1, L — J 
gy=)e"/R-D, i=j—1, (39.2) 
0 dans les autres cas. 


Le déterminant de cette matrice est égal à l'unité tout comme ses 
valeurs propres. On ne peut pas considérer que les lignes de cette 
matrice sont proches des lignes linéairement dépendantes, puisque, 
par exemple, pour 8 = 2-*-b l'angle entre tout vecteur ligne de la 
matrice G et le sous-espace tendu sur tous les vecteurs lignes précé- 
dents n’est pas inférieur à x1/8. I] n’est donc pas clair du tout si l’on 
peut remplacer des lignes quelconques de la matrice G par des lignes 
nulles sans perdre sensiblement en précision de la solution. 

Perturbons la matrice (39.2) en portant en position (nr, 1) l’élé- 
ment égal à (—1)"e. Pour & = 2-"-D cette perturbation est si peti- 
te que pour nr >> 40 elle devient inférieure à la perturbation due à 
l'arrondissement d’un élément de la matrice jusqu’à 12 décimales. Et 
pourtant, quel que soit €, la matrice perturbée s’avère dégénérée. 
Par conséquent, la grandeur des éléments des lignes et des colonnes 
de la matrice (39.2) ne permet pas encore de conclure correctement 
sur le degré de son approche de la matrice de rang incomplet. 

La transformation unitaire du système initial en système à matri- 
ce trapézoïdale normalisée est aussi pas trop efficace. Examinons la 
matrice triangulaire inférieure normalisée G d'ordre x aux éléments 


1/V j, =}, 
ky= À —VA4/—-1GE0, i>j, (39.3) 


O, i<j. 
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La perturbation par élément 


F2 ie 1 \\-1 
e=—}" +(I] (1+-7)) (39.4) 
j=3 
en position (1, x) rend cette matrice dégénérée. Mais pour de grands n 
ez—V9e-? Va, (39.5) 


et de nouveau la grandeur des éléments des lignes et des colonnes de 
la matrice (39.3) ne reflète pas le degré de son approche de la matri- 
ce de rang incomplet. 

Résumons. Si la matrice d’un système exact est de rang incomplet, 
la petitesse des perturbations des données d'entrée et des erreurs d'ar- 
rondi ne conduit pas obligatoirement, dans le processus des transfor- 
mations du système, à l'apparition des lignes et des colonnes composées 
entièrement d'éléments aussi petits. C'est ce qui constitue la difficulté 
majeure, mais non unique, de la construction des méthodes numé- 
riques de résolution des systèmes {à matrices de rang incomplet, 
fondées sur les transformations équivalentes du système initial. 

J1 existe encore une difficulté liée à la justification des transfor- 
mations ultérieures de ceux des systèmes dont les matrices possèdent 
des lignes ou des colonnes aux petits éléments. Au $ 16, nous avons 
indiqué, au fond, comment la tourner. 

Si les données d’un système à matrice de rang incomplet sont 
entachées d’erreurs, aucune amélioration de la précision des calculs 
et aucune transformation ne pourront assurer à la pseudo-solution 
normale une précision garantie. Comme nous l’avons déjà dit, à 
cet effet il faut faire appel à une information supplémentaire sur le 
problème exact. Mais supposons quand même qu'après l'exécution 
des transformations unitaires, on ait obtenu un système aux petites 
lignes et colonnes. Le remplacement de ces lignes et de ces colonnes 
par des lignes et des colonnes nulles est équivalent à une petite per- 
turbation de la matrice du système initial. Si nous pouvons trouver 
avec une précision suffisante la pseudo-solution normale du système 
obtenu, cela signifie, d’après les résultats du $ 16, que la projection 
de la pseudo-solution normale du système exact sur l’un des sous- 
espaces tendus sur les vecteurs singuliers supérieurs est calculée 
avec une précision suffisante. On n’a aucune raison de s’attendre à 
obtenir un meilleur résultat sans recourir à une information supplé- 
mentaire. 

La nécessité d'utiliser une information supplémentaire pour ré- 
soudre des systèmes instables donne lieu à des difficultés déterminées 
lors de l'établissement des algorithmes de calcul correspondants. 
Cette information est très variée quant à sa nature. Il semble que la 
seule possibilité d'en tenir compte pour une classe de problèmes 
suffisamment large consiste à paramétriser l'algorithme de calcul. 
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Dans ce cas, l’obtention d’une approximation authentique de la so- 
Jution nécessaire du problème initial consistera à obtenir des solu- 
tions multiples du problème paramétrisé dans le but de sélection de 
l'ensemble des paramètres d’après l'information supplémentaire. 
Deux formes de paramétrisation de ce type ont été examinées au 
deuxième chapitre. Au $ 16 on a étudié le paramétrage discret asso- 
cié à l’approximation de la matrice du système initial pour des ma- 
trices voisines de rang plus petit ; au $ 17 on a examiné le paramétra- 
ge continu associé à la minimisation de la fonctionnelle régulari- 
sante. 

Les discussions des $$ 16, 17 constituent la base théorique de ré- 
solution des systèmes d'équations linéaires instables. A présent, il 
nous faut construire des algorithmes de calcul tels qu'ils conservent 
leur stabilité dans les conditions de l'influence des erreurs d’arrondi 
et permettent de résoudre assez vite des problèmes de paramétrage. 


EXERCICES 


1. Trouver les solutions normales des systèmes 
z + ay = 1, 
az + 2y = a, 


pour & = V2et a = y 2. Comparer ces solutions entre elles. 
2. Trouver les pseudo-solutions normales des systèmes 


z + ay = 1, 
ar + 21 = 0 


pour « = V2et « # Y 2. Comparer les pseudo-solutions entre elles. 


3. Examiner un système compatible (39.1) quelconque. Soit 7, un vecteur 
vérifiant l’égalité 


(A+E) z=b—+e, (39.6) 


où E, e sont de petites perturbations. Démontrer que la solution x du systé- 
we (39.1) la plus proche de x vérifie la relation asymptotique 


IL z— 2 115/1| z Ile SvÂ (OA + 6e), 


où 61, 6, sont des valeurs relatives des perturbations dans 4 et b. 
4. Si x est la solution normale du système (39.6), la solution zx du syste- 


me (39.1) la plus proche de z sera-elle normale elle aussi ? 
5. Examinons un système incompatible (39.1) et soit 


min || Az—b È=0? < ||b|[E. 


Supposons que z est un certain vecteur tel que 


IL Az—b [= 6+e, 
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où e est un petit nombre non négatif. Démontrer que la pseudo-solution x du 
système (39.1) la plus proche de z vérifie la relation asymptotique 


22 Île Z à x _ 
IzÎle (I 6 IE — 6)" 
6. Soient les nombres singuliers p,, .. ., p, de la matrice (39.2) numérotés 


dans l’ordre de décroissance. Démontrer que pour 0 < & < 1 on vérifie les 
relations 


eG-D_4<p se MD E4, pHn, 0<p<e. 


Analyser ces relations pour e — 2-m-h, 
7. Démontrer que Îles nombres singuliers de la matrice (39.3) vérifient les 
relations 


(V2 —1/2V2<p<Vr kzn, 0 <pr<lel, 
où & se calcule d’après (39.4) (39.5). De plus 


ñn 


Ÿ Pê=n. 


$ 40. Systèmes à matrices bidiagonales 


Tout système d'équations algébriques linéaires peut être réduit 
à l’aide des transformations unitaires à un système à matrice carrée 
bidiagonale. Les transformations unitaires étant parfaitement sta- 
bles, pour construire des méthodes numériques de résolution des 
systèmes instables on peut se borner à l'examen des systèmes à ma- 
trices bidiagonales. 

Supposons, pour fixer les idées, que G est une matrice bidiagona- 
le inférieure d’ordre nr aux éléments diagonaux non négatifs. Dési- 
gnons G par G, et construisons la suite {G;}, où les matrices G, d'in- 
dices pairs sont des matrices bidiagonales inférieures, et d'indices 
impairs, des matrices bidiagonales supérieures. Si À est pair, alors 


Cet ii: TC. (40.1) 
Dans le cas de * impair, 
CG =C TT TL .. (40.2) 


Les matrices de rotation 7%; s’obtiennent à partir de la condition de 
l'élimination de l'élément G; en position (i, j). Si les éléments extra- 
diagonaux G, sont indicés de haut en bas, alors, pour tout k, ils sont 
éliminés de proche en proche à partir du premier. L'élimination en- 
traîne tout de suite : 

Si tous les éléments des deux diagonales de la mattice G, sont 
distincts de zéro, les éléments des deux diagonales de chacune des 
matrices G, seront aussi différents de zéro. 


188 RÉSOLUTION DES SYSTÈMES D'EQUATIONS [CH. V 


Si parmi les éléments des deux diagonales de la matrice G, il y a 
des éléments nuls, la matrice G, sera une matrice quasi diagonale et 
ses matrices seront diagonales ou bidiagonales à éléments non nuls 
des deux diagonales. Les matrices G, ont une structure analogue pour 
tout 4 2. 

Ces propriétés permettent d'admettre, sans diminuer la généra- 
lité, que tous les éléments des deux diagonales de la matrice G; 
sont non nuls. 

Désignons les éléments diagonaux de la matrice G, par pti)... 
..., PA), les éléments extra-diagonaux par et), ..., e(k). (40.1) 
est une transformation unitaire ; c’est pourquoi les carrés des normes 
euclidiennes des vecteurs colonnes des matrices G, et G:+, de (40.1) 
coïncident. Par conséquent, 


PR = pr er, 
PRHIR et +IR = QORN EUR 
D AU ie Se io an (40.3) 
POP He D = pO + eux, 
A+ Het riS = DUAN, 
Les carrés des normes euclidiennes des vecteurs lignes des matri- 


ces G: et G:+, coïncident, ce qui conduit également à (40.3). Ainsi, 
les relations (40.3) sont remplies pour tout k. On en tire 


R 
2 
PE Pme pf + D ei, 
Fe 
R+1 k 
pEitr + D eg me por + D er, 
ad T= 


R+1 R 
R+1): — n(0 V1 2 
PRO D ep por + À eg, 


R+1 
k+1} 2 — (0 
ae PTE 
En tenant compte de l'égalité des normes euclidiennes des matrices 


G», on trouve ensuite que 
k 


2 eu <2]|G | 
p=0 
pour tout qg. Mais alors, pour tout q, 
lim 8% = 0. (40.4) 


ko 
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Les relations limites (40.4) signifient que la suite {G,} converge 
vers la matrice diagonale. Les éléments diagonaux p,, . .., p, de 
cette matrice coïncident avec les nombres singuliers de la matrice 
de départ G. 

Examinons la vitesse de convergence de la suite {G;}. La trans- 
formation (40.1) étant unitaire, les produits scalaires des vecteurs 
colonnes voisins des matrices G, et G;+, coïncident. Les produits 
scalaires des vecteurs lignes voisins des matrices G, et G;,4, de 
(40.2) coïncident également. Ceci conduit aux relations 


(k+1)e(R+1) — ph) ph) 
Pa" Pa+1€9 
pour 1 < g An, qui entraînent que 


ptà) 
eth+1) — g+1 CR) 
q ptr+1) q 
q 


Mais pour tout g lim p#)=— p,; donc 
Ro 


(R) Pa+1 \À 
en — 0 (ee) }- (40.5) 

En comparant (40.4) et (40.5) nous tirons la conclusion que pour 
que soient observées les relations limites (40.4), il faut que pour tout 
g soient observées les inégalités py+1 < pq. C'est pourquoi la suite 
{Gx} converge vers une matrice diagonale telle que ses éléments 
Pr + + «> Pn Soient ordonnés suivant la décroissance, c'est-à-dire 


P1>PaZ>... > Pr. 


Si Gest la matrice d’un système instable, elle possède un ou plu- 
sieurs nombres singuliers. Supposons qu'elle en compte r — g et 
qu'ils soient « détachés » des autres nombres. Dans ce cas, le rap- 

port P,+1/P4 Sera assez petit et déjà après quelques transformations 
(40. 1), (40 2) les dernières nr — g lignes et colonnes de toutes les 
matrices G, Se composeront seulement de petits éléments. Ainsi, 
avec € — 2%), la matrice (39.2) ne possède qu’un petit nombre 
singulier. Mais on vérifie sans peine qu'une seule transformation 
(40.1) rend inférieur à 2-*-® Je dernier élément diagonal de la 
matrice. Dans la matrice G,, la dernière ligne et la dernière colonne 
ne se composeront que de petits éléments. 

Au $ 16 nous avons décrit l’application de la décomposition 
singulière d’une matrice à la résolution des systèmes d’équations 
instables. Notons, pourtant, qu’en réalité, nous n'avons utilisé la 
décomposition singulière que pour approzimer la matrice initiale 
par une matrice voisine de plus petit rang, pour laquelle il est facile 
de calculer la pseudo-solution normale. A cet effet, le processus 
(40.1), (40.2) convient parfaitement, surtout dans le cas où la matrice 
du système possède un groupe détaché de petits nombres singuliers. 
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L’approximation nécessaire s'obtient en remplaçant les lignes et les 
colonnes de la matrice G, aux éléments petits, par des lignes et des 
colonnes nulles. 

Le processus des transformations (40.1), (40.2) est numériquement 
stable. Si on effectue s de telles transformations, alors, si on opère 
en précision simple, la matrice réellement calculée G, sera exacte- 
ment unitairement équivalente à la matrice G + E, ; de plus, 


-hV2+5 
Es (le  ÉU2ES sp-t#1 Ge. 


Si les petits nombres singuliers de la matrice G ne sont pas déta- 
chés des autres, la convergence de la suite {G;} vers la matrice diago- 
nale sera lente. Le processus (40.1), (40.2) n’est pas alors très effi- 
cace, car il faut mémoriser un grand nombre de matrices de trans- 
formation. Dans ce cas, en résolvant des systèmes instables 


Gu = I, 


on utilise avantageusement les processus de minimisation de la 
fonctionnelle régularisante de la forme (17.1), ce qui rend nécessaire 
la résolution des systèmes 


(G*G + aE)u, = G*l. (40.6) 


La résolution de ces systèmes est si rapide, que. lorsqu'on a à ré- 
soudre des systèmes instables d'équations linéaires, le temps du 
choix pour eux du paramètre & n’est presque jamais un facteur d’im- 
portance. 


EXERCICES 


1. Démontrer que les matrices Gs, G1, . . ., établies d’après (40.1), (40.2) 
vérifient les relations 


G$Go=GIG1 
G1GT = G2GC3, 


2. Soit À une matrice tridiagonale définie positive. Construisons la suite 
des matrices bidiagonales supérieures {L,} d’après la prescription suivante 


A — L?L;, 
L,L? = LiLes 


Démontrer que pour tout k, les matrices L,;L? sont semblables à la matrice À et 
que la suite {L,L?} converge vers la matrice diagonale. 
3. Analyser les erreurs de la résolution des systèmes (40.6). 
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$ 41. Tactique de résolution des systèmes 
de forme générale 


En s’appuyant sur les investigations réalisées dans ce qui pré- 
cède nous pouvons élaborer maintenant une certaine tactique d’ac- 
tion pour résoudre des systèmes d'équations de forme générale. L’ap- 
plication de cette tactique présente un avantage dans les cas où les 
renseignements disponibles sur le système sont insuffisants pour 
choisir une méthode numérique et garantir sa stabilité. 

Nous n’allons imposer aucune contrainte au système initial. I] 
peut être aussi bien compatible qu’incompatible, bien ou mal con- 
ditionné. Le rang de la matrice du système peut être arbitraire. Le 
processus de calcul est organisé de façon que plus le système initial est 
« bon», plus vite il s'achève en fournissant une solution approchée. 
L'estimation de la précision dépend des propriétés du système 
révélées par la marche du processus et d’une certaine information à 
priori. L'ensemble des opérations décrites est réalisé facilement sur 
un ordinateur et probablement est un ensemble optimal aussi bien 
pour ce qui est du volume de calcul que pour l’utilisation de la mé- 
moire de l'ordinateur. 

Ainsi, Supposons qu'on ait à résoudre le système de m équations 
linéaires à nr inconnues. Admettons qu'au lieu du système exact 


Az = b (41.1) 


on donne le système perturbé 


Az —b (41.2) 
et on connaît les estimations de la forme 
14A—Ale<eal Ale 110—061e<eell0 ls (41.3) 


des normes euclidiennes des perturbations. Le problème consiste à 


chercher d’après le système (41.2) une certaine approximation zx, 
de la pseudo-solution normale du système (41.1) et à obtenir une 
information maximale au possible sur le degré de la proximité entre 
Zo et Lo. 

La première étape de la tactique proposée consiste toujours à 


réaliser la transformation unitaire de la matrice À pour la réduire à 
la forme bidiagonale. Cela signifie que nous cherchons les matrices 


L, S et la matrice bidiagonale G telles que 
L(Â+E)S=G. 


Les matrices L, $ sont mises sous la forme de produit de matrices de 
Householder calculées, alors que la perturbation équivalente E sa- 
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tisfait à la relation 
Elle Z 2,9 (m+n) pl AI. (41.4) 
L'étape suivante doit vérifier la complexité du rang des matrices 
A, À. D'après (37.19), (41.3), (41.4), elles sont de rang complet si la 
matrice G est de rang complet et si au moins l’une des conditions 
11G* 11211 G 11e (84 +2,9 (m+n)p-t#1)Z 1, 
IG* Ile 11@ Ile ea + 2,9 (mn) pt#1)Z 1 


est remplie. Ces relations ont un caractère asymptotique. C’est pour- 
quoi, pour être sûr d'obtenir des conclusions correctes, nous véri- 
fierons l’observation des conditions plus fortes 


11G* 1 Ille (&a + 2,9 (m+n) p-t#1) <0,1, 
IL Ile 11 Île (ea + 2,9 (m +n) p-t+#1) <0,1. 


Ce qui est le plus difficile dans la vérification de (41.5), c'est de cal- 
culer la norme de la matrice G*. Si m > n, il vient 


(6), 


où G est la matrice carrée bidiagonale d'ordre nr. Mais alors 
G* —[G* : 0]. 


(41.5) 


Mais si m << n, il résulte 
G=—1(G:0], 


où Gest la matrice bidiagonale d’ordre m, et dans ce cas, 


 [ê 
[0]. 


Par conséquent, pour calculer G* ou sa norme, on peut se borner à 
l'examen de la matrice carrée bidiagonale. 


La matrice rectangulaire G est de rang complet si et seulement s'il 


existe une matrice correspondante non dégénérée G ou G. C’est pour- 
quoi la première chose à faire, c’est de vérifier leur régularité. Cette 
vérification peut être réalisée en calculant formellement la norme de 
la matrice inverse et en contrôlant sa grandeur au cours des calculs. 

Pour chercher la norme euclidienne de la matrice inverse à la 
matrice bidiagonale il est commode d'utiliser les relations de la 
forme (26.2). Supposons, pour fixer les idées, que m > n. Introdui- 
sons la notation p;°’, ..., p®” pour les éléments diagonaux de la 


matrice G, ete” ,..., e. pour les éléments extra-diagonaux. Con- 
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formément à (26.2), on a 
ai = 1/p0>, 


aÿ = (œz_ enr, + 1)/007, q = 2, 3: secs: 
Alors, 
_ n 
IG IÈ= © ag. 

qæi 
La deuxième des relations (41.5) est légèrement plus faible que 
la première, mais elle est plus facile à vérifier. Si elle n’est pas 
observée, il se peut que s’observe l’autre relation. Dans les cas cou- 
rants, le premier membre de la première relation de (41.5) est plus 
petit que celui de la deuxième, mais pas plus que de V/n fois. Pour 


calculer la norme spectrale de la matrice G* et vérifier la complexité 
de son rang, il faut calculer le nombre singulier minimal de la ma- 
trice G. A cet effet on peut utiliser le processus (40.1), (40.2). Sa réa- 
lisation ne présente pas de grandes difficultés, puisque dans ce cas, 
il ne faut pas mémoriser les matrices de transformation. Générale- 
ment, le temps de calcul n'est pas grand non plus par rapport au 
temps nécessaire pour la réduction de la matrice À à la forme bidia- 
gonale. 

Supposons maintenant remplie l’une des conditions (41.5) et 
établie la complexité du rang des matrices À, À. Il s’ensuit que ces 
matrices ne changent pas de rang dans les limites de la perturba- 
tion À, où 


IA Île Z (ea + 2,9 (m+n) p-t#1)1] Ale. 
Déterminons le vecteur 


T=fL (Lb), (41.6) 
cherchons la pseudo-solution normale u, du système 
Gu=i (41.7) 
et calculons le vecteur 
z, = fl (Su). (41.8) 


Il servira d’approximation de la pseudo-solution normale x, du 
système exact (41.1). Toutes les opérations de calcul ont été exami- 
nées précédemment en détail. La résolution du système (41.7) se 
ramène à la résolution du système à matrice bidiagonale non dégéné- 
rée, les transformations (41.6), (41.8) se réalisent d’après les algo- 
rithmes décrits aux $$ 20, 21. 

L'observation de l’une quelconque des conditions (41.5) permet 
de donner des estimations asymptotiquement correctes de la préci- 


13—0484 
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sion. Si m = n, alors, conformément à (10.10), (36.15), 


RE Lvé (eates+5,8(m+n)p tt). (41.9) 
Si m <n, alors, d’après (16.6), (36.15) et d’une façon analogue à 
(37.9), 


role Z\s(e, te, +9,8(m+n) p-'+1). (41.10) 


I zo Île 
Dans le cas m > n, conformément à (16.7), (37.12), 


Lee le Cv (e4 + e0+9,8 (mn) pt+1) + 
+v8 (V8 (Ea+4,9 (mn) p=t#1) + 


+e, +4,9 em +) pt) IE (41.11) 
E 


Dans la dernière estimation L’ est le vecteur qui contient les premiè- 


res z coordonnées du vecteur L de (41.6); L” est le vecteur qui con- 


tient les dernières m — nr coordonnées de i. 

Le processus d'obtention des estimations (41.9)-(41.11) ne se 
distingue presque pas du processus d'obtention d’autres estimations 
analogues ; nous n'’allons donc pas nous attarder à l’examiner en dé- 
tail. Dans toutes les estimations, vé est la plus petite des quantités 
I G* I 1 G Île » I G* Île IG Ile . calculées pour vérifier l'observation 
des conditions 

Si les données d’entrée du système (41.2) ne comportent pas d'’er- 
reurs ou si ces erreurs sont bien plus petites que les perturbations 
équivalentes produites par le passage au système (41.7), la pseudo- 
solution calculée x, peut être améliorée. C’est ce qui incombe à l’éta- 
pe successive de la tactique d'action. L'amélioration se fait d’après 
les algorithmes examinés au $ 38, l’utilisation de la transformation 


déjà réalisée de la matrice À à la forme bidiagonale étant très effi- 
cace. Si les données d’entrée du système (41.2) sont fortement enta- 
chées d'erreurs, aucun processus ne peut garantir l’amélioration sans 
recourir à une information supplémentaire. 

Supposons maintenant qu'aucune des conditions (41.5) n'est 
remplie ou que la précision déterminée par les estimations (41.9)- 
(41.11) est insuffisante. N'importe quel de ces cas signifie que les 
propriétés du système exact (41.1) sont telles, que pour obtenir 
d’après le système perturbé (41.2) une information digne de foi sur 


la pseudo-solution exacte x,, il faut recourir à une information sup- 
plémentaire sur le système exact ou sur la pseudo-solution exacte. 

Une mauvaise déterminabilité de la pseudo-solution normale 
dans les conditions d’une perturbation des données d'entrée résulte, 
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en somme, de la mauvaise déterminabilité de ses projections sur les 
vecteurs singuliers droits de la matrice du système, qui correspondent 
à de petits nombres singuliers. L'information supplémentaire est 
nécessaire pour éliminer de telle ou telle façon l’action exercée par 
ces projections, sans perdre sensiblement en précision de la pseudo- 
solution normale. 

Indépendamment de l'existence ou de l'absence de l’information 
supplémentaire, il est rationnel d’effectuer encore une étape de la 
tactique d'action. Dans le cas général, elle a pour tâche d'obtenir 
une information plus complète sur la structure interne du système. 
Dans des circonstances favorables, on pourrait obtenir à cette étape 
non seulement la solution du système, mais aussi l'estimation de la 
précision. 

Effectuons quelques pas du processus (40.1), (40.2) en prenant 
comme initiale la matrice G. Cela signifie que nous obtiendrons les 


matrices M,, NV, et la matrice bidiagonale G, telles que 
Mr (G+H)Ni=Gn. (41.12) 


Les matrices M,, N, sont représentées comme produits de matrices 
de rotation, et la perturbation équivalente H vérifie la relation 


= 4 V2+5 
IA Ie LÉ rp=t#t | À (Le. 


Si la matrice du système exact possède un groupe détaché de 
n — g petits nombres singuliers, alors après un petit nombre de pas 


les dernières r — g lignes et colonnes de la matrice G, deviennent 
généralement petites. En les remplaçant par les lignes et les colonnes 


nulles nous obtiendrons la matrice bidiagonale P, proche de G;. 
Conformément à la transformation (41.12), mettons le système 
(41.7) sous la forme 


(MEGNY) u= 1, 
et examinons le système qui lui est proche 
(MIP,N?) u= 1. (41.13) 


Pour la matrice P, on trouve aisément la matrice pseudo-inverse P: : 
de plus ||P£ || n’est pas grande. C'est pourquoi la pseudo-solution 
normale du système (41.13) peut être calculée avec une précision 
élevée. Calculons le vecteur 


uo=fl(W,PiM;D, 


puis le vecteur x, d’après (41.8). Prenons ce vecteur comme une 
approximation de la pseudo-solution normale z, du système 
exact (41.1). 


13* 
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Comme on l’a montré au $ 16, le vecteur zx, sera proche de la 
projection de x, sur le sous-espace tendu sur les vecteurs singuliers 
droits de la matrice du système, qui correspondent aux grands nombres 


singuliers. Par ailleurs, on garantit à x, la petitesse du résidu et la 
stabilité aux erreurs des données d’entrée et aux erreurs d’arrondi. 
Les différentes caractéristiques quantitatives de tels paramètres 
de la précision peuvent être calculées au besoin au cours du processus. 

Si le second membre du système s’accorde assez bien avec la ma- 


trice, le vecteur x, sera aussi proche de zx,. Pourtant, les estimations 
quantitatives de cette proximité ne peuvent pas s’obtenir des résul- 
tats du calcul sans faire appel à une information supplémentaire. 

A cette étape de la tactique d'action, le processus (40.1), (40.2) 
doit être poursuivi jusqu'à ce que la matrice G,; ne puisse pas être 
partitionnée pour former la somme 


Gi = Pr+Fr, (41.14) 


où la norme de F, est petite et la norme de P n'est pas grande. Mais 
si la matrice du système initial possède un groupe détaché de petits 
nombres singuliers, généralement cette partition survient très vite. 
C'est pourquoi la réalisation du processus (40.1), (40.2) peut se 
borner à un petit nombre de pas, d'autant plus que toutes les estima- 
tions de la précision relatives au vecteur x, sont le plus efficaces jus- 
tement dans le cas où de petits nombres singuliers sont détachés. Si la 
partition (41.14) ne survient pas après 8 à 10 pas, le plus probable 
c'est que les nombres singuliers de la matrice ne sont pas partition- 
nés suffisamment. 

Dans ce cas nous passons à la dernière étape. Résolvons le systè- 
me (41.2) par minimisation de la fonctionnelle régularisante 


Da(r)=alzlE+ | Ar —d|le. 
La transformation réalisée à la première étape réduit le problème 
à la minimisation d'une fonctionnelle plus simple 


Da(u)=a|[u|E+||Gu—ZIf#, (41.15) 


tout en conservant les relations (41.6)-(41.8). Mais la minimisation 
de la fonctionnelle (41.15) conduit à la résolution des systèmes de 
la forme 


(G*G+aE)ue =G*1 (41.16) 
à matrices tridiagonales définies positives. 


Si aucune information supplémentaire n'est disponible, on ne 


peut indiquer qu’une méthode stable de calcul d’un vecteur x, tel qu’il 
soit asymptotiquement proche du vecteur cherché z,. 
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Supposons que les normes des perturbations totales de la matrice 
et du second membre du système ne dépassent pas le nombre positif &. 


» 


Prenons & = el/? et déterminons à partir du système (41.16) le 
vecteur correspondant u,. Posons u, = u, et calculons x, d'après 


(41.8). Il s'ensuit de la formule (17.4) que le vecteur x, sera 
proche de x, avec une précision d'ordre &!, indépendamment du fait 
si le système initial était compatible ou incompatible. Dans le cas 
du système initial compatible on peut adopter &« = e!#, Alors la 


proximité asymptotique du vecteur z, au vecteur x, sera assurée 
avec une précision d'ordre &“". 

Les estimations quantitatives de cette proximité sont encore 
impossibles sans faire appel à une information supplémentaire sur 
le problème exact. 


EXERCICES 


1. Soit ro la pseudo-solution du système (41.1) assurant la minimisation 
de la fonctionnelle (Br, x) à matrice définie positive B. Démontrer que x, = 
= C-lys, Si yo est la pseudo-solution normale du système 


AC\y=b, 


et la matrice C est associée à B par l'égalité B = C*C. 
2. Examinons dans les conditions de l'exercice 1 la fonctionnelle régula- 
risante 
Da(z)=a(Bz, z)+I] Az—b/|IIE (41.17) 
et soit z,, le vecteur assurant son minimum. Démontrer que 


lim ze =2Zç. 
œ—+0 


3. Démontrer que la minimisation de la fonctionnelle (41.17) se ramène 
à la résolution du système 


(A*A + aB) rs = A°*b. 


4. Supposons qu’on sache que || À * fl: < &. Supposons encore qu’au cours 
de l’application de la tactique d'action on a établi que la matrice G possède un 
groupe détaché de nombres singuliers sensiblement inférieurs à &-*. Obtenir 
les estimations garanties de la proximité du vecteur de calcul x, à la pseudo-solu- 
tion normale x, du système (41.1). 

5. Supposons connues les estimations supérieures des normes euclidien- 
nes des solutions normales du système 

(A*A)Pz = A*b 


pour deux valeurs différentes quelconques de p => 1. Obtenir par tactique d’ac- 
tion des estimations garanties de la proximité de xs à xo. 

6. Supposons connu le rang de la matrice du système (41.1). Dans quel cas, 
en utilisant cette information, peut-on obtenir des estimations garanties de la 
proximité de zo à zo, Si on applique la tactique d'action ? 

7. Soit la norme euclidienne de la pseudo-solution normale du systè- 
me (41.1). Supposons qu’en appliquant la tactique d'action il s’est avéré que 
la matrice G possède un groupe détaché de petits nombres singuliers. Dans quel 
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cas, d’après cette Ent peut-on obtenir des estimations garanties de la 


proximité entre Zo et zo? 
8. Qu'est-ce qui change dans les exercices 4 à 7 si on connaît en plus le 
fait de la compatibilité ou de l’incompatibilité du système (41.1) ? 


$ 42. Certaines remarques 


Nous avons passé en revue certaines méthodes de résolution de 
systèmes d'équations fondées sur la décomposition de la matrice en 
produit de facteurs. Il existe de nombreux autres problèmes d’algèbre 
linéaire qui sont étroitement liés à la résolution des systèmes et à la 
décomposition des matrices. Dans ce qui suit nous allons examiner 
certains de ces problèmes. 


Calcul du déterminant. La réalisation des transformations de la 
matrice au cours de la résolution d’un système d'équations permet 
sans de grands frais supplémentaires d'obtenir la valeur du détermi- 
nant. Supposons que (36.2) ou (36.4) ait lieu. Pour la décomposi- 
tion (36.2) 


det À = det B-det C. 


Si les matrices B, C sont triangulaires, leurs déterminants sont 
égaux au produit de leurs éléments diagonaux. Généralement, parmi 
les matrices B, C, il y en a une qui possède des éléments unités 
diagonaux. Pour la décomposition (36.4) 


det G 


det À — det L-det S : 


Les déterminants des matrices Z, S n’imposent aucun calcul. Dans 
le cas des transformations (24.3), (24.9) et des rotations, ils sont 
égaux à 4, dans celui des transformations de Householder, ils sont 
égaux à (—1)”, où rest le nombre de transformations. La matrice G 
appartient le plus souvent à l'un des types décrits au $ 26 et le 
calcul de son déterminant ne présente pas de difficultés particulières. 

Quel que soit le calcul du déterminant, nous pouvons affirmer 
seulement que sa valeur obtenue coïncidera avec la valeur exacte du 
déterminant d’une certaine matrice perturbée. Examinons les ma- 
trices À, À + E et soient p,, ..., Pa et Pr, - - ., PA leurs nombres 
singuliers. On vérifie facilement que 

no | 
det (A+E) -[ Pi = II °°: 
7 detA Pr 


Si on introduit la notation 


det(A+E) _ 
detA 1+86, 
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en utilisant l'inégalité de Cauchy-Bouniakovski et la relation 
(15.11), on a 


18/<IE le 1 À"! If. (42.1) 


Pour les perturbations liées aux décompositions du tableau 34.1 
l'estimation (42.1) peut se mettre sous la forme 


[Of (R) vapr tri. 
Ici v, est le conditionnement euclidien de la matrice À. 


Inversion de la matrice. Les décompositions (36.2), (36.4) peuvent 
s'employer pour le calcul de la matrice inverse. (36.2) entraîne que 
A”t=C"1B"1, (42.2) 

et (36.4), que 
At = SG'iL. (42.3) 


C’est pourquoi si la transformation (36.2) ou (36.4) est réalisée, pour 
obtenir la matrice À -! il reste seulement à inverser une ou deux 
matrices de forme simple et effectuer la multiplication des matrices 
entre elles d’après (42.2) ou (42.3). 

Du point de vue formel, pour inverser une matrice on peut utili- 
ser n’importe quelle des décompositions du tableau 34.1. Or, dans le 
sens pratique, elles ne sont pas équivalentes. Elles diffèrent surtout 
par le volume de mémoire nécessaire. Pour calculer la matrice 
inverse d’après la formule (42.2) ou (42.3), il faut après la transfor- 
mation de la matrice À mémoriser toutes les matrices de (36.2) ou 
(36.4), sauf la matrice À elle-même. Comme le montre le tableau 34.1, 
à cette étape déjà certaines des décompositions imposent une mémoire 
supplémentaire importante. Les décompositions dans lesquelles la 
matrice G est bidiagonale, tridiagonale ou quasi triangulaire deman- 
dent également un grand volume de mémoire supplémentaire à l'étape 
de calcul de G-1, du fait que la matrice G-! est complète. C'est pour- 
quoi de toutes les décompositions du tableau 34.1, il n’y a que celles 
qui sont liées à la décomposition de la matrice en produit de facteurs 
triangulaires ou à sa réduction à la forme triangulaire à l’aide des 
transformations de Householder, qui sont commodes pour l’in- 
version. 

Le problème de calcul de la matrice inverse peut être envisagé 
d'une façon quelque peu différente. La matrice À“! est la solution 
unique de l’équation matricielle AX = E£. 


Désignons par z,,..., x, les vecteurs colonnes de la matrice À -!. 
Alors zx; est la solution du système 
Az; = &;, (42.4) 


où e; est le vecteur de coordonnée avec l’unité en i-ième place. La 
encore pour résoudre le système (42.4), ils'avèreutile de faire appel 
aux décompositions (36.2), (36.4). Peu 
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Du point de vue pratique il est presque indifférent de calculer la 
matrice inverse d’après les formules (42.2), (42.3) ou en résolvant les 
systèmes (42.4). Notre préférence va à la deuxième méthode seule- 
ment parce que les questions liées à la résolution des systèmes sont 
déjà explorées. Il se peut que l’application de cette méthode impose 
une certaine modification du schéma de calcul de la méthode, imposée 
par la nécessité de résoudre simultanément des systèmes (42.4) aux 
seconds membres nombreux. 

Examinons deux exemples présentant le plus d'intérêt. Suppo- 
sons obtenue la décomposition (36.2), où B est une matrice triangu- 
laire inférieure, et C, une matricetriangulaire supérieure. Pour résou- 
dre de proche en proche les premiers systèmes de (36.3) aux seconds 
membres e,, . .., e,, l’informationsur les solutions elles-mêmes peut 
être rangée dans un ordinateur là où se trouve la matrice B. Il ne 
faut que r mots de mémoire supplémentaire. Les deuxièmes systèmes 
de (36.3) seront résolus parallèlement, en déterminant l’une après 
l’autre les coordonnées de mêmes indices pour tous les systèmes. Dans 
ce cas, les éléments de la matrice À -! peuvent s’obtenir sur un ordi- 
nateur à l'emplacement de la matrice À à peu près en 2n° opérations 
arithmétiques. 

Supposons qu’on ait effectué la transformation (36.4), que la 
matrice G soit une matrice triangulaire supérieure, et la matrice S 
soit représentée sous la forme de produit U,...U,_.U,-, des matri- 
ces de Householder. La résolution consécutive des systèmes (36.6) 
aux seconds membres e,, ..., e, permet encore de placer toute l’infor- 
mation sur les solutions à l'emplacement des colonnes correspondantes 
de la matrice G. Les transformations (36.5) se font simultanément, en 
multipliant d’abord tous les vecteurs par U,_,, puis par U,., et 
enfin, par U,. Dans ces conditions, il convient de tenir compte aussi 
bien de la forme spéciale des vecteurs transformés, que de la forme 
spéciale des transformations elles-mêmes. Là encore les éléments de 
la matrice À -! peuvent s’obtenir à l'emplacement de la matrice À 
à peu près en 3n° opérations arithmétiques. 

Si on observe le régime des calculs qui a permis d'obtenir l’esti- 
mation (36.15), l’obtention de la matrice inverse à l’aide de l’une 
quelconque des méthodes numériques de résolution des systèmes (42.4) 
examinées au $ 36 garantit l'observation de l’estimation (36.15) 


pour chaque colonne de la matrice calculée À -!. Une estimation ana- 


logue est donc vraie également pour la matrice ÀA-1elle-même. Plus 
précisément, 
Îl A71— 4-1 Île > o.. _t+1 9 
I A le = << 2vVAf (n) p ‘ (42.5) 
Ici v, est le conditionnement euclidien de la matrice À. 


L'application des systèmes (42.4) au calcul de la matrice À”! 
permet, lorsque le besoin se présente, d'améliorer certaines ou toutes 
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ses colonnes. La technique de ce processus est décrite en détail 


au $ 38. 


Calcul d’une matrice pseudo-inverse. La pseudo-solution norma- 
le x, du système (41.1) est associée à la matrice et au second membre 
par la relation DRE 

Zn = A*b. 


On en tire immédiatement que si nous cherchons x; du système (42.4) 
comme sa pseudo-solution normale, nous n’obtiendrons rien d’autre 
que le i-ième vecteur colonne de la matrice pseudo-inverse À *. C’est 
pourquoi le calcul d’une matrice pseudo-inverse ne se distingue que 
par des détails du problème de l’inversion d’une matrice examinée 
ci-dessus. 

La détermination d’une matrice pseudo-inverse se ramène tou- 
jours au cas m < n, du fait que pour m > nr on peut profiter de la 
formule 

(4')* = (4*)'. 


Si la matrice À n’est pas très proche d’une matrice de rang incom- 
plet, le plus avantageux pour résoudre les systèmes (42.4) est d’appli- 
quer le premier des trois modes décrits au $ 37. Dans ce cas, la matri- 


ce À * réellement calculée satisfait d’après (37.9) à la relation 


Il A*— A+ Île > = + n—t+1 
TA 9,8 min {m, n}vip-t+i. (42.6) 


La proximité de la matrice À à une matrice de rang incomplet 
complique sensiblement le problème de calcul de A*. Là encore il 
faut disposer d’une information supplémentaire, et pour résoudre les 
systèmes (42.4) on est obligé d'appliquer les méthodes prévues pour 
les systèmes instables. 


EXERCICES 


1. Comment influent sur la valeur du déterminant les permutations exécu- 
tées au cours de la transformation d’une matrice ? 

2. Examiner les transformations d’une matrice qui permettent de calculer 
tous ses mineurs principaux. 

3. Est-il commode d'utiliser pour le calcul du déterminant une décompo- 
sition qui compte une matrice unitaire complète ? 

4. La succession de la résolution des systèmes (42.4) influe-t-elle lors de 
la décomposition (36.2) ou (36.4) sur le volume de mémoire supplémentaire ? 

5. Démontrer que toute matrice non dégénérée À et toute matrice X de 
même ordre vérifient la relation 


ILX — A" |] 
Il AT* 1 


6. Examinons la matrice non dégénérée À et une matrice quelconque X 
qui satisfait à la condition || AX — E |] << 1. Introduisons la notation X, = X 


<min{| AX—E |, | XA—E ||}. 
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et construisons la suite des matrices {X,} d’après la prescription 
Xh= Xh-1 (2E — AXR-1). 
Démontrer que la suite {X},} converge vers la matrice À-!et que 
I Xr— A7? |] 
I AT? 
7. Examiner l’analogue de l’exercice 6 pour le cas où la condition 
il XA — E | < 1 est observée. 
8. Comparer les formules (36.15), (37.12) et (42.5), (42.6). Pourquoi dans 
le premier cas on observe une grande différence et dans le deuxième une grande 
ressemblance ? 


9. Discuter les diverses méthodes de calcul numérique de la matrice pseudo- 
inverse fondées sur les décompositions de la matrice en produit de facteurs. 


ok 
<I|AX—E[". 


CHAPITRE VI 


PROBLÈMES DES VALEURS PROPRES 


Le calcul des valeurs propres et des vecteurs propres est l’un des 
problèmes les plus difficiles de l’algèbre linéaire. Le problème des 
valeurs propres se résout par des méthodes itératives, du fait qu'ils 
sont en somme liés à la détermination des racines d’un polynôme 
algébrique. 

Dans ces méthodes, les valeurs propres se calculent comme les 
limites de certaines suites numériques sans détermination préalable 
des coefficients du polynôme caractéristique. Généralement on cher- 
che simultanément les vecteurs propres ou d’autres vecteurs qui leur 
sont liés par des relations simples. 

Nous allons examiner certaines des méthodes numériques assu- 
rant la résolution du problème des valeurs propres. Elles sont effi- 
caces toutes, mais imposent un volume de travail assez grand. Leur 
développement et leur application pratique sont devenus possibles 
seulement après la création des machines à calculer rapides. 


$ 43. Méthode des rotations 


Examinons la matrice symétrique réelle À d’ordre r. La détermi- 
nation de ses valeurs propres et vecteurs propres est équivalente à la 
recherche d’une matrice orthogonale T telle que 


A = T'AT (43.1) 


soit une matrice diagonale. Dans ce cas, les colonnes de 7 seront des 
vecteurs propres de la matrice À, et les éléments diagonaux A, 
ses valeurs propres. 

Parmi toutes les transformations de similitude orthogonales la 
transformation (43.1) minimise la somme des carrés des éléments 
extra-diagonaux. Essayons donc de chercher la matrice T7 par l’un 
quelconque des processus de minimisation de la somme donnée. 
Construisons la suite des matrices 


Ar À, À À (43.2) 
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dont chacune s’obtient de la précédente par la transformation de 
similitude ne contenant qu’une seule matrice de rotation. 

Pour simplifier l'écriture, omettons l’indice v et explorons le 
résultat de la transformation 


Â=T;;AT;y. (43.3) 
Désignons par @,,, 4,, les éléments des matrices À, À, et supposons 
conformément à (18.22) que l’angle de rotation de la matrice de 
rotation T;;soit &«. La matrice À se distingue de la matrice À par deux 
lignes et deux colonnes d'indices à, j. Si, de plus, on tient compte de 


l'invariance de la norme euclidienne par rapport aux transformations 
unitaires, alors on tire sans peine de (43.3) la relation 


D aù= D ay 22% ++ {(ayy— au) sin 2a+2ayycos 2aÿ, (43.4) 
R+l h+ | 
qui associe les sommes des carrés des éléments extra-diagonaux des 
matrices À et À. 

La relation (43.4) signifie que pour réduire au maximum la somme 
des carrés des éléments extra-diagonaux, il faut choisir la matrice 
de rotation 7';; de façon à observer deux conditions 


a,;|—=maxl|an 
| ai| el nt | 
et 
(a;;— a) sin 2a + 2a;, cos 2a = 0. 
La deuxième condition donne 
2a;j 
aji— ajj 
Il est clair qu'après l’exécution de la transformation (43.3), les 


éléments extra-diagonaux des positions (i, j) et (j, ë) de la matrice À 
seront nuls. 


Soit t? la somme des carrés des éléments extra-diagonaux af” de 


la matrice À, de la suite (43.2). En vertu de la formule (43.4) et du 
choix de l'angle de rotation, 


tg 24 — 


, Hal<+. (43.5) 


9 9 
Lots = ti — 2 (af), }2. 


Si à chaque rotation on élimine un élément extra-diagonal maximal 
en module, alors 
(v) à2 tŸ 
Qi) > 
et puis 
9 


Ba (1) << (1) (43.6) 


n 
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Par conséquent, 
lim {? — 0. (43.7) 

Vo 
D'après (43.3) toute matrice À, de la suite (43.2) est associée 
à la matrice initiale À par la transformation desimilitude orthogonale 
A, = (Lis Tis, 9e T; ) À (TisTi,5, CE EE T; 


Eve dv ie 


C'est pourquoi les éléments diagonaux de 4, et les colonnes corres- 
pondantes de la matrice 

Toi, ee Ti, (43.8) 
sont des valeurs propres exactes et des vecteurs propres exacts d’une 
certaine matrice symétrique À + E,, où 


Il E, ÎLE = À, 


pour tout v. Maintenant l'égalité limite (43.7) et les résultats de la 
théorie des perturbations du $ 13 permettent de tirer une conclusion 
importante. Pour tout v suffisamment grand, les éléments diagonaux 
des matrices À, seront proches, quelle que soit la précision donnée, 
des valeurs propres de la matrice À, et les colonnes des matrices T, 
seront proches de ses vecteurs propres. Ce mode de résolution du pro- 
blème complet d’une matrice réelle symétrique s'appelle méthode des 
rotations. 

Il peut sembler que les inégalités (43.6) témoignent d'une très 
faible vitesse de convergence de la méthode établie. Or, en réalité 
elles ne traduisent pas tout à fait correctement le sens même du pro- 
cessus. Démontrons qu'irdépendamment de la présence des valeurs 
propres multiples la convergence de la méthode est asymptotiquement 
quadratique. 

Supposons que le processus soit poussé si loin, que tous les élé- 
ments extra-diagonaux de la matrice 4, soient devenus des quantités 
d'ordre € et petites par rapport aux différences non nulles entre les 
valeurs propres de la matrice À. Mettons la matrice À, sous la forme 


A, = A+(4, — A). 


Désignons À, — À par Q et profitons des résultats de la théorie 
des perturbations du $ 13. La matrice À , possède des valeurs propres 
qui coïncident avec les éléments diagonaux de la matrice A. C'est 
pourquoi dans les notations du $ 13, la formule (13.8) entraîne que 
tous les éléments des matrices @,;, sont des quantités d'ordre e2. 
Voici ce que cela signifie en termes de la méthode construite. Pre- 
mièrement, les éléments diagonaux de la matrice À, approchent les 
valeurs propres de la matrice À avec une précision d'ordre e*, indé- 
pendamment de leur multiplicité. D'autre part, si les éléments dia- 


gonaux a; et af sont proches d’une seule et même valeur propre, 
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les éléments extra-diagonaux a{* et af? sont en fait des quantités 
d'ordre €. 

Pour l’élément extra-diagonal maximal en module de la matri- 
ce À,, les éléments diagonaux correspondants ne peuvent pas être 
proches. Par conséquent, l’angle de rotation calculé d'après (43.5) 
sera d'ordre &. Mais alors, 


cos «a = 1+0O(Ee*), sin a = O0 (e). 


Maintenant il est facile de démontrer que lors de l'élimination de 
l'élément extra-diagonal maximal en module, tous les autres élé- 
ments extra-diagonaux changent leurs valeurs de quantités d'ordre &*. 
En particulier, l'élément éliminé au pas précédent sera d'ordre e°. 
C’est pourquoi pas plus que dans 1 
tra-diagonaux deviendront des quantités d’ordre e*, ce qui prouve 
justement la convergence quadratique. 

La variante décrite de la méthode des rotations impose à chaque 
pas le choix de l'élément extra-diagonal maximal en module de la 
matrice. L’exécution de cette opération sur un ordinateur demande 
beaucoup de temps machine. C’est pourquoi la nécessité du choix 
indiqué présente un inconvénient d'importance du point de vue de 
la commodité de sa réalisation sur ordinateur. 

Les processus cycliques s’avèrent plus commodes, notamment, 
lorsque ce sont des processus cycliques à barrières. Dans le processus 
cyclique on choisit une certaine indexation des éléments extra- 
diagonaux de la matrice, leur élimination s’effectuant suivant des 
cycles. Pendant chaque cycle tous les éléments extra-diagonaux sont 
éliminés dans l’ordre de leux indexation. Le plus souvent les éléments 
sont indexés l’un après l’autre de gauche à droite et de haut en bas, 
ou suivant les colonnes de haut en bas et de gauche à droite. Certes, 
il n’y a que les éléments sur- ou sous-diagonaux qui sont éliminés. 

Ce processus présente l'inconvénient de l'élimination de petits 
éléments extra-diagonaux, alors que la matrice compte encore de 
grands éléments. Ceci ralentit sensiblement le travail. 

Pour remédier partiellement à cet inconvénient, on recourt à l’in- 
troduction d’une suite monotone décroissante jusqu'à zéro des nom- 
bres positifs &, &»+, . . ., appelés barrières; on élimine ensuite par 
révision cyclique seulement ceux des éléments extra-diagonaux qui 
ne sont pas inférieurs en module à &,;. Une fois que tous les éléments 
extra-diagonaux deviennent inférieurs en module à «;, la barriè- 
re &, est remplacée par &, et le processus se poursuit. 

Ce processus permet de résoudre le problème des valeurs propres 
complet bien plus vite que le processus prévoyant le choix de l’élé- 
ment maximal. Toutefois, son utilisation pratique présente plusieurs 
difficultés dues au choix optimal des barrières. Si la barrière choisie 
est très grande, la révision de petits éléments prendra beaucoup 


pas tous les éléments ex- 
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de temps. Mais si on la prend très petite, on mettra beaucoup de temps 
à éliminer les petits éléments qui, en principe, n’influent pas sur la 
vitesse de la convergence. 

Une attention particulière mérite le mode suivant du choix de 
l'élément à éliminer. Si dans la matrice À, on élimine l'élément en 
position (i,, j,), les sommes des carrés des éléments extra-diagonaux 
de chaque ligne de la matrice À,., seront les mêmes que dans le cas 
de la matrice À, sauf les lignes d'indices é,, j,. C’est pourquoi, si au 
début du processus on calcule les sommes des carrés des éléments ex- 
tra-diagonaux de la matrice À, à chaque pas élémentaire changeront 
seulement deux nombres des z nombres de la suite {B,} obtenue. 

Ceci permet de trouver l'élément à éliminer optimal par révision 
seulement de 2n — 1 nombres. A cet effet, on opère de la façon sui- 
vante. On cherche d’abord dans la suite {$,} l'élément maximal B;,, 
puis, dans la i,-ième ligne, l'élément a; ; . [l est évident qu'il sera 
proche de l’élément maximal en module, en tout cas pas inférieur à la 
moyenne quadratique de tous les éléments extra-diagonaux. Pour 
préparer la suite {B,} au pas suivant, il faut recalculer les nombres 
Bi, et B;.- Toute la théorie de la méthode des rotations avec choix de 
l'élément maximal est applicable au processus avec choix de l’élé- 
ment optimal. 

Nous avons déjà examiné à plus d’une reprise les différentes trans- 
formations basées sur l’utilisation des matrices de rotation et établi 
toujours leur stabilité aux erreurs d’arrondi. On peut donc affirmer 
avec certitude que les processus décrits doivent posséder également 
une stabilité correspondante. 

Considérons certains détails liés au calcul des matrices de rota- 
tion elles-mêmes. Introduisons les notations 


Z= 20, Y—= Gi; 
Si y = 0, on prend 

cos &« = sin & = V 2/2. 
Dans le cas où y 0, on tire de (43.5) que 


COS à = (+ (t+—rs))", 


sin œ—sign (ty) (+ (Er ] VF. 


La première de ces formules est parfaitement utilisable pour les 
calculs ; quant à la seconde, lorsque | x | est petit par rapport à | y |, 
elle donnera de grandes erreurs relatives. Mais notons que 


(43.9) 


sin &.cos &= -Lsign (zy) —L2! 
TEST LES 
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Par conséquent, 
sina——"8g"@nlel (43.10) 


2 cos a (x®+y2)1/° 
Maintenant, la première des formules (43.9) permet avec (43.10) de 
calculer tous les éléments de la matrice de rotation avec une précision 
relative élevée. Si les expressions 


[x] lyl 
Gi) (224 y) 
se calculent conformément à l'algorithme décrit au $ 18, les pivots 


de la matrice de rotation réellement obtenue seront de la forme (18.4). 
Par ailleurs, 


(c2+s2)/*=1+w, 


[v1Z pit, (43.11) 
si la multiplication et la division par 2 ne sont pas exactes, et 
[y Z Lp-t#i 


dans le cas contraire. Nous proposons au lecteur à titre d'exercices de 
vérifier lui-même si ces relations sont correctes. 

L'influence des erreurs d’arrondi conduit à ce qu’au lieu des ma- 
trices 4 ,, T, de (43.2), (43.8), on calcule réellement certaines autres 
matrices À, T, liées à la matrice À par la relation À, 
= Ti! (4 + A.) T .. Dans le cas général, la grandeur de la es 
tion équivalente A, dépend de l’ordre d'élimination des éléments 
extra-diagonaux. 

Supposons que les éléments sont éliminés dans un ordre cyclique 
avec ou sans utilisation des barrières. Admettons également qu’on 
calcule seulement la moitié des éléments extra-diagonaux de À, alors 
qu'aux autres éléments on affecte des valeurs de contrainte à partir 
des considérations de symétrie. Si la matrice À, s'obtient au r-ième 
cycle, en utilisant l’estimation (43.11) et les résultats des discussions 
des $$ 19, 23, 32, nous tirons 


IA Île < 16rrp-t+1 || A]|S. (43.12) 


L'expérience de l'application pratique de la méthode des rota- 
tions montre que, dans les cas courants, indépendamment de l’ordre de 
la matrice, pas plus de 5 ou 6 cycles complets suffisent pour réduire 
au maximum les sommes des carrés des éléments extra-diagonaux. 
Cependant, les erreurs d’arrondi interviennent surtout aux premiers 
2 ou 3 cycles. 
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Pour les processus avec choix de l’élément maximal ou optimal on 
ne parvient pas à obtenir une estimation meilleure que (43.12), ou 
ne serait-ce qu’une estimation qui lui soit comparable. Généralement, 
au lieu de x apparaît le facteur n°. Mais, probablement, ceci n'est lié 
qu’à la difficulté d'obtenir une bonne estimation et non pas au fait 
que ces processus sont moins précis que les processus cycliques. 

À titre de conclusion, voici un corollaire utile de (43.12). Dési- 


gnons par À1, « - -, À les valeurs propres exactes; par À,, ..., Àn, les 
valeurs propres réellement calculées. Si dans la formule (43.12) on 
adopte r — 3, alors (13.9) entraîne 


D i—h) 
= <48np-t+i. 
DE" 
\ {mi 
EXERCICES 


1. Démontrer que la suite (43.2) converge vers la matrice fixée. 

2. Démontrer que lorsqu'on procède par élimination cyclique des élements 
extra-diagonaux avec utilisation des barrières, la méthode des rotations con- 
verge. 

3. La méthode des rotations convergera-t-elle asymptotiquement avec une 
vitesse quadratique quel que soit le choix des barrières? 

4. Soit la matrice À aux valeurs propres multiples. Démontrer que dans 
les matrices de la suite (43.2) il existe des positions fixées, où à partir d’un 
certain v, il n’y aura ni d’élément maximal, ni d’élément optimal. 

5. Démontrer que lors du choix de l'élément maximal ou optimal, la suite 
des matrices (43.8) converge vers la matrice fixée. 

6. La suite (43.8) convergera-t-elle vers la matrice fixée si on utilise la 
variante cyclique de la méthode des rotations sans barrières ? 

7. Explorer la vitesse asymptotique de convergence de la méthode des 
rotations avec choix de l’élément maximal ou optimal suivant le nombre de 
valeurs propres multiples et suivant leur multiplicité. 

8. Démontrer que la méthode des rotations conserve non seulement la 
convergence, mais aussi sa forme quadratique asymptotique si les angles de rota- 
tion & sont pris dans les limites | & | < x/4 conformément aux formules 


ga { 1, faisl>lau—e;;], 
aijl(aii —ajj), | ai} | < | Gi; — a] l, 


ou 


te _« - LS | &iy | > (2 y 2—2) l'as —a;; [, 
: ayyl2(au—0;), le <(2 V2—-2)lau—e;;|. 


Quel avantage présentent ces formules ? 


9. Montrer que la méthode des rotations concerne également les matrices 
hermitiennes complexes. 


14—0484 
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10. Examinons la matrice complexe normale À d'ordre r aux éléments 


+ AVR 1=k, 
AR = : 
e Vatv L = k, 
où Vp = (p —1)s/n pour p = 1, 2, n. Démontrer que pour nr > 6, 


aucune homothétie de cette matrice à l’aide d’un analogue complexe de la 
matrice de rotation ne permet de diminuer la somme des carrés des modules 
des éléments extra-diagonaux. 


$ 44. Méthode des bissections 


Soit À une matrice symétrique réelle. Supposons que pour une 
matrice non dégénérée T 


A = T'AT (44.1) 


est une matrice diagonale. Alors, d’après le principe d'inertie des 
formes quadratiques [1], on peut affirmer que le nombre d'éléments 
nuls, positifs et négatifs de À ne dépend pas du mode de réduction de 
la matrice À de (44.1) à la forme diagonale, c’est-à-dire ne dépend 
pas de la matrice T. 

Prenons comme 7 la matrice orthogonale des vecteurs propres 
de (43.1). Dans ce cas, la matrice A de (44.1) sera la matrice des va- 
leurs propres. Par conséquent, si pour une autre matrice T nous pour- 
rons Calculer le nombre d'éléments nuls, positifs et négatifs de la ma- 
trice À correspondante, alors par là même nous déterminerons le 
nombre de valeurs propres nulles, positives et négatives de la ma- 
trice À. La résolution de ce problème peut être très efficace même sans 
calcul explicite des matrices T et A. 

Supposons pour le moment que la matrice À possède des mineurs 
principaux non nuls. Alors, il existe une matrice triangulaire supé- 
rieure non dégénérée S et une matrice diagonale D aux éléments +1 
telles qu’elles vérifient l'égalité 


A = S'DS. 


D'après ce qui a été dit, le nombre d’éléments de D positifs et néga- 
tifs est égal respectivement au nombre de valeurs propres positives et 
négatives de la matrice À. Mais les éléments de la matrice D se déter- 
minent sans peine. En effet, en utilisant la formule de Binet-Cauchy 
[1], on trouve que pour tout r 


| 
A5] IT dus 
1—=1 
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c’est pourquoi 
F12...r 
Af42.,] 

12:11): 
A2 

Ainsi, les signes des mineurs principaux d’une matrice symétri- 
que permettent d'établir le nombre de ses valeurs propres positives 
et négatives. 

Les signes des mineurs principaux de la matrice À — ÀE, quel 
que soit À réel, déterminent le nombre de valeurs propres de la matri- 
ce À respectivement plus grands et plus petits que À. En prenant les 
diverses valeurs de À, on peut trouver le nombre de valeurs propres 
qui reposent sur un segment arbitraire de l’axe des réels et, par 
conséquent, localiser dans la mesure nécessaire toute valeur propre 
de la matrice A4. Cette idée est à la base de la méthode de bissection, 
méthode numérique de la recherche des valeurs propres d’une matrice 
symétrique. 

Admettons que la matrice symétrique À ait une forme tridiagona- 


le aux éléments extra-diagonaux non nuls. Les matrices de ce type 
sont dites jacobiennes et s'écrivent 


di, = Sign À [ : | , dr =sign 


G1 Pi 0 
Br G2 be 
re Ba Gs Ps (44.2) 


0 Bn-1 Œn 


L'étude des matrices jacobiennes n'est pas limitée par des contrain- 
tes spéciales. En effet, nous avons montré au $ 32 qu’une matrice 
symétrique peut être réduite à la forme tridiagonale à l’aide d’une 
transformation de similitude orthogonale. S'il s’avère que certains 
éléments extra-diagonaux sont nuls, la matrice tridiagonale se dé- 
composera en somme directe des matrices diagonales et matrices 
tridiagonales aux éléments extra-diagonaux non nuls. Pour les 
matrices diagonales, la résolution du problème des valeurs propres 
est évidente ; il reste donc à résoudre ce problème pour les matrices 
de la forme (44.2). 

Désignons par 01, ..., 6, les mineurs principaux de la matrice 
tridiagonale À. On trouve d’une façon analogue à la formule (26.6) 


Oo = 4, O1 = 


Or = QrOpy—Pi10,, 2<r<n. (44.8) 


14* 
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Ces relations et la forme de la matrice À entraînent plusieurs corollai- 
res utiles. Par exemple, 

aucuns deux mineurs principaux voisins de la matrice (44.2) ne 
peuvent être simultanément nuls; 

si le mineur 6,, 1 Lr< n, est nul, les mineurs voisins 0,1, O,+1 
sont distincts de zéro et possèdent des signes opposés; 

toutes les valeurs propres de la matrice (44.2) sont simples. 

Il n’y a que la dernière affirmation qui présente certaines diffi- 
cultés pour la démonstration. Supposons que la valeur propre À 
soit multiple. Alors, le rang de la matrice À — ÀE ne doit pas être 
supérieur à z — 2. Mais ce rang est à l'avance pas plus petit que 
n — 1, du fait que les éléments extra-diagonaux sont distincts de 
zéro, et par conséquent, le mineur situé dans les premières nr — 1 
colonnes et les dernières nr — 1 lignes est distinct de zéro. Cette 
réduction à l’absurde signifie que toutes les valeurs propres d’une 
matrice jacobienne sont des valeurs propres simples. 

Calculons d’une façon quelconque les mineurs principaux de la 
matrice À et examinons la succession des signes de la suite 


Oos Or O9 - + + On. (44.4) 


Si aucun des termes de la suite n’est égal à zéro, alors d’après le 
nombre de changements de signes nous déterminons tout de suite le 
nombre de valeurs propres positives et négatives de la matrice (44.2). 
La présence des termes nuls dans (44.4) n’apporte aucune difficulté. 

En effet, en choisissant le nombre € suffisamment petit, on peut 
rendre tous les mineurs principaux de la matrice À + &£E distincts 
de zéro, tout en conservant les signes des mineurs non nuls de Ia sui- 
te (44.4). D’après le deuxième corollaire, les signes des mineurs qui 
ont été nuls n’influent pas sur le nombre total de changements de 
signes de (44.4). Si on élimine la valeur propre nulle de la matrice À, 
alors, dans le cas d’un petit e, le nombre de valeurs propres positives 
et négatives restantes est le même pour les matrices À et À + &£E. 
C’est pourquoi à tous les termes nuls de la suite (44.4), sauf o,, on 
peut affecter des signes arbitraires. 

Dans les calculs réels on peut espérer seulement que les signes des 
mineurs principaux d’une certaine matrice perturbée À + E seront 
déterminés correctement. Certes, le processus de calcul doit assurer 
la petitesse de la perturbation E. Mais pour déterminer correctement 
d'après les signes des mineurs principaux de À + E le nombre de 
ses valeurs propres nulles, positives et négatives, il faut avoir la cer- 
titude que À + E est une matrice jacobienne. Les processus de cal- 
cul ne sont pas tous à garantir l'observation simultanée des deux 
conditions. 

I] existe de nombreuses raisons qui font que pour le calcul sur 
ordinateurs les formules (44.3) ne peuvent pas être utilisées sous leur 
forme directe. Même pour les matrices les plus simples le processus 
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de calcul (44.3) peut amener soit le débordement, soit des conclu- 
sions incorrectes par suite de l'apparition des zéros de la machine. 
Examinons, par exemple, la matrice jacobienne aux éléments &«; — 0; 
B; = B pour tout i. Ses mineurs impairs sont nuls, et ses mineurs 
pairs d'ordre 2k sont égaux à (—1)*B%#*. C’est pourquoi pour | B | > 1 
le débordement survient rapidement. Mais si | B | 1, alors, à par- 
tir d’un certain indice, tous les mineurs principaux seront interprétés 
comme nuls. Ceci est équivalent au remplacement de certains élé- 
ments extra-diagonaux par des zéros, ce qui est, bien sûr, inadmis- 
sible. 

L'apparition des zéros de la machine à d’autres étapes de calcul 
peut également conduire à de grandes erreurs. Désignons par « le 
nombre positif minimal représentable sur ordinateur. Supposons 
qu’un certain f; soit un nombre d'ordre .w!/°. Alors, lors du calcul, 

? peut donner un zéro de la machine. Ceci est encore équivalent au 
remplacement de f, par un zéro. Si 0:-, est une quantité d’ordre w!/i, 
l'apparition du zéro de la machine lors du calcul de fio;_, est équiva- 
lente au remplacement de f; par un zéro même dans le cas où f;, est 
une quantité d'ordre w!/%. Les erreurs dues à un tel remplacement 
sont très importantes. 

Le zéro de la machine donne lieu à bien plus de difficultés à sur- 
monter qu’il peut paraître à première vue lors de l'application des 
formules (44.3). Ceci est dû d’abord à ce que nous devons garantir la 
correction des signes des quantités calculées. Si les grandeurs elles- 
mêmes sont voisines du zéro de la machine un tel problème n’est pas 
simple. 

Pour r > 2, les relations (44.3) sont linéaires et homogènes par 
rapport à 61, ..., 0- C'est pourquoi si avant de calculer ©, nous 
multiplierons 6,_,, 6,-+ par un nombre positif y, alors au lieu de 
Or» Or + + + On NOUS obtiendrons par la suite Yo,_,, . . ., y,. Les 
signes de nouvelles quantités seront les mêmes que ceux des mineurs 
principaux. Par conséquent, le nombre de valeurs propres nulles, 
positives et négatives de la matrice jacobienne initiale sera déterminé 
correctement si, pour r > 2, à chaque pas du processus les seconds 
membres de (44.3) seraient multipliés par des nombres positifs arbi- 
traires. Nous choisirons ces nombres de façon à garantir l’observation 
des prescriptions de précision nécessaires. 

Admettons que la matrice jacobienne soit normée et que pour tout à 
ses coefficients vérifient les inégalités 


li l<1, 2po <|B;1< 1/4, (44.5) 


Où pest la base du système de numération sur laquelle est fondé le 
fonctionnement de l’ordinateur. Si pour certains B, l'inégalité à gau- 
che n’est pas observée, nous remplacerons de tels f, par des zéros. 
Dans ces conditions la matrice de départ se décompose en somme di- 
recte des matrices diagonales et tridiagonales vérifiant les condi- 
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tions( 44.5). La perturbation équivalente E’ qui correspond à la subs- 
titution réalisée est très petite. Plus précisément, 


Il E|h < 4po. (44.6) 


Désignons par S le nombre positif maximal représentable sur 
ordinateur. Dans les cas courants, ( n’est plus petit que le nombre 
(po)! que d’une façon négligeable. 

Choisissons un nombre M proche de 2, par exemple, 


M = (4po). 
Nous en aurons besoin pour les calculs ultérieurs. 


Examinons maintenant un pas typique du processus de calcul. 
Il consiste à chercher les quantités 


u = y(az — Pfy), v = yz. 


Ici &, B satisfont aux conditions (44.5); les nombres x, y sont non 
auls simultanément ; le paramètre y est choisi au cours de calcul. 

Supposons d’abord que z = 0. Dans ce cas, si l’on prend y — 
= (B° | y |)! et si l’on pose 


= — sign y, v=0, 


aucune erreur n'apparaît. Mais si zx = 0, le calcul sera réalisé dans 
l'ordre suivant : 


s= f] (By)= By (1+&), 
z = {1 (Ps) = y (1 + e1) (1 +e>), 
0—=max{|z|, |z|}, 


v= fl (5) = (14e), 


q=fl (av) = av (14), (44.7) 
r = fl (MB) = MB (1 + es), 
m= fl (rB) = MB? (1 + es) (1 + ee), 

= (TE) = TE (+00), 


B = fl (g—1) = (9 —1) (A+ es). 


Aucune des quantités à gauche ne dépasse en module 2. Pour 
parer aux étapes intermédiaires au débordement ou à l'apparition 


injustifiée du zéro de la machine, il ne faut que calculer avec soinvet l; 
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Ceci peut se faire, par exemple, de la façon suivante : 
-_[a((he, o>1 
a((E)M). 0<i. 


a((+)y), m<iÂ, 0<1 ou m>1, 0>1, 
L A ((+)m), m<i, 0>1 ou m>1, 0<1. 


Etudions plus en détail les erreurs apparues. Notons que e, et & 
influent seulement d’une façon négligeable sur le choix de 8 et n'’in- 
fluent pas du tout sur les autres calculs de (44.7). Nous n’examine- 
rons donc que les erreurs €; pour i > 3. 


Soit 3 — — 1. Alors, d’après cette hypothèse, il faut que soit 
remplie l'inégalité asymptotique 
| Le |z &. (44.8) 


Mais lorsque 8 = | x |, (44.8) n’a pas lieu. Et si 0 — |z |, alorsles 
relations 


Mz Mz (po) to 
Ka Fey | AA GuT — 40 
sont vérifiées. Là encore (44.8) n’a pas lieu. Par conséquent, es = —1. 
Les erreurs &, €, ne sont pas égales à l’avance à —1 du fait 
que M$° > po. L'erreur &; non plus n’est pas égale à —1. En effet, 
si 0 = |zx|, alors q — 0 pour & = 0 et qg > 4(p) ! pour « Æ 0. 
Dans les deux cas &, < — 1 indépendamment de la grandeur de 1. 
Mais si 0 = |z |, alors |! | = M et €, == — 1 quel que soit q. 
Si tous les e; + — 1, alors, tenant compte du processus de cal- 
cul décrit et des grandeurs des erreurs d’arrondi dues à l’exécution 
des opérations arithmétiques isolées, nous tirons 


_f+pt#t, i%3,7, 
[es (E 
Dr, i=3, 1. 
Soulignons, toutefois, que €, et &, peuvent s'avérer égales à —1. 
D'après l’idée générale de l'analyse inverse des erreurs montrons 


que les quantités u, v réellement calculées vérifient les égalités 
exactes 


(44.9) 


u=y((a+e)z—(B+n)?y), v=yz 


et donnons les estimations des perturbations équivalentes €, n. 
En réunissant de proche en proche les résultats de calcul de (44.7), 
nous obtiendrons indépendamment de la grandeur des erreurs &, les 
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expressions suivantes pour u, UV: 


u= (1+es) (az (1+ 84) (188) — By X 


(A+es) (148) (1+e:)(1+ 88) 
X Re ) : (44.10) 


D=(+ (A+e:)) z. 


Cela revient à ce que 


Puisque 84 = — 1,y > 0. 

Pour évaluer les perturbations équivalentes &, n il faudra exa- 
miner plusieurs cas. Supposons d’abord que toutes les erreurs 8; Æ 
= — 1. Alors (44.9), (44.10) entraînent que 


2 RE 
[ef Zlalp-t#t, InlZ-IBlp"t#+t. (44.11) 
Si 0 = | x |, pour tout a l’erreur e, =£ — 1. Admettons que €; — 
— — 1, c'est-à-dire que l’inégalité asymptotique 
| MB°y/0 | & o. (44.12) 


soit observée. En mettant u sous la forme 
_ M 2 
et en utilisant l'inégalité (44.12), nous trouvons que 


| B°y/x | € w°/4p. 


C'est pourquoi nous obtenons pour les perturbations équivalentes 
les estimations suivantes : 


le|Z/ælp-t+t, [n|=0. 


Soit 0 — |z |. Dans ce cas, | 2] = M et e3 == — 1. Si l’erreur 
eg = —1 , alors doit être observée l'inégalité asymptotique 


| aMz/0 | £ o, 
d’où l’on tire que 
ax | £ | B°y | w*/4p. (44.13) 
En mettant u sous lu forme 


= + (1+e) (az— (By (1+ es) (1+) CHE EE) _ x)) 


1+es 
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et en tenant compte de la relation (44.13), on tire que maintenant 


| 
[el=0, [n|<-Z1Blp-t+i. 


La comparaison définitive des résultats obtenus montre que pour 
les perturbations équivalentes €, n, l’observation des estimations 
(44.11) est toujours assurée. 

Ainsi, en calculant d’après l’algorithme décrit les signes des mi- 
neurs principaux de la matrice jacobienne À, normée d’après (44.5), 
voici ce que nous obtiendrons en fait. La suite réellement calculée des 
signes coincidera exactement avec la suite des signes des mineurs 
principaux d’une certaine matrice perturbée À + E”. Si À est de la 
forme (44.2), la perturbation E” sera une matrice tridiagonale symé- 
trique de forme analogue: 


€ M 
Mi € M 0 
E’— LA Es Ns 
O Mn+2 En-1 Mn 
Nn—1 En 


Les éléments eï, ni respectent les inégalités 
Lil Z [œlp-t#t, [nil TZIBlp-t#1. (44.14) 


Il en résulte, notamment, que la matrice perturbée sera égale- 
ment une matrice jacobienne et que, par conséquent, il est possible 
de déterminer correctement d’après les signes de ses mineurs principaux 
le nombre de valeurs propres nulles, positives et négatives de la 
matrice À + E”. Les valeurs propres de la matrice À ne se distin- 
guent asymptotiquement des valeurs propres de la matrice À + E” 
pas plus que de !(15/8)p-t**, du fait que, conformément à (44.5), 
(44.14), on a 


IE" 1h Z & pt. (44.15) 


Maintenant nous pouvons passer directement à la description de 
la méthode numérique de calcul des valeurs propres d’une matrice 
jacobienne. Admettons que la matrice À soit normée et que pour tout à 
ses coefficients vérifient les inégalités 


| & | < 1/4, 2pw < | B: | < 4/4. (44.16) 


Comme nous l’avons déjà dit. l'opération essentielle de la mé 
thode est le calcul des signes des mineurs principaux des matrices 
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A — ÀE pour divers À. Mais toutes les valeurs propres de la matri- 
ce À à éléments (44.16) ne dépassent pas en module 3/4. Il suffit 
donc de prendre À à partir du segment [—3/4, +3/4]. Dans ce cas, 
les coefficients des matrices À — ÀE vérifient les inégalités (44.5). 

En calculant les signes des mineurs principaux de la matrice 
A — ÀE nous ne déterminerons correctement en réalité que les signes 
des mineurs principaux d’une certaine matrice À — ÀE + E,;. La 
perturbation E; se compose des perturbations (44.6), (44.15) et de la 
perturbation E” qui apparaît lors du calcul de la matrice À — ÀE. 
Il est évident que la matrice E” est diagonale ; de plus, 


PE" 1h < (4/2) prt#i 


Par conséquent, pour la perturbation totale E; on obtient l’esti- 
mation 


I] E lh < (19/8) p-t+1 (44.17) 
pour toutes les valeurs À. 


Supposons que les valeurs propres À de la matrice À soient indi- 
cés dans l’ordre de décroissance algébrique, c’est-à-dire 


Mæ>hk2...2 ne. 


Montrons comment calculer la k-ième valeur propre À, indépendam- 
ment de toutes les autres. 

Désignons par n+ (À) le nombre de valeurs propres de la matri- 
<e À strictement plus grandes que À. Si l’on connaît les nombres a,, 
b,, tels que 


ban + (Go) > k, n+ (bo) <k, 


alors À, appartient à l’avance à l'intervalle (a,, b,]. Notons qu’on 
peut prendre comme «a, n'importe quel nombre inférieur à — 3/4, 


comme b,, n’importe quel nombre supérieur à + 3/4. Posons main- 
tenant 


= (ao + bo) 


et déterminons n+ (co). Si n+ (co) > k, alors À, appartient au demi- 
intervalle (co, bol; mais si r+ (c) << k, alors À; appartient au demi- 
intervalle (a&, col. C’est pourquoi on peut toujours indiquer le demi- 
intervalle de longueur (4/2) (b, — a,) contenant À,. En poursuivant 
ce processus, nous obtiendrons lesystème de demi-intervalles emboîtes 
(a, b,] contenant À, ; de plus, 


(b,— as) = 2" (by — @o). 


Ceci permet de localiser la valeur propre À, avec toute précision vou- 
lue. 
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Cette conclusion n’est vraie que dans le cas des calculs exacts. 
Les erreurs d’arrondi apportent, certes, leurs corrections. Examinons 
le demi-intervalle construit (a, b,]. En toute rigueur, on ne peut 


affirmer seulement que la k-ième valeur propre À, d’une certaine 
matrice À + E, est plus grande que a,, et que la k-ième valeur 


propre À, d’une autre matrice À + E», est inférieure ou égale à b,, 
les perturbations E, E,, vérifiant les inégalités (44.17). Mais con- 
formément à (44.17) nous tirons 


à =. 19 - — 19 
Far PTE, [ah ze port. 
Par conséquent, les relations 
a+ prihZ S b,+ pt+1 (44.18) 


doivent être observées. Si on prend comme approximation de À, tou- 
jours le point c, du milieu du demi-intervalle (a,, b,], alors (44.18) 
entraîne que 


PANEESTAUE EE 


Pour le choix indiqué ci-dessus des valeurs initiales de «,, b,, on 
a notamment 


eh] z Ep +R D, 


Aucun sens n'est de réaliser un très grand nombre de pas de bis- 
section des demi-intervalles. Dans les cas courants, il suffit de pren- 
dre s = [t log,p], où [-] traduit la partie entière du nombre. En tenant 
compte de p > 2, on obtient l'estimation suivante: 


CANTAL (44.19) 


La méthode examinée de la détermination des valeurs propres 
d'une matrice jacobienne jouit d’une universalité exceptionnelle. On 
peut l'utiliser non seulement pour la recherche de la valeur propre 
d'indice donné, mais aussi pour le calcul de toutes les valeurs 
propres ou de celles de n’importe quel domaine donné, pour l’explo- 
ration générale des valeurs propres, etc. Sa réalisation ne subit aucune 
influence de la présence des valeurs propres proches et multiples et même 
de leur accumulation très grande. La précision de (44.19) ainsi obtenue 
ne dépend pas des dimensions de la matrice. 

Toutes ces propriétés semblent frappantes surtout si l’on se 
souvient que, finalement, la méthode est liée à l’identification des 
nombres nuls et non nuls, cette identification se réalisant dans les 
conditions de l'influence des erreurs d’arrondi. 
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EXERCICES 


4. Supposons que l’une des valeurs propres d’une matrice symétrique tri- 
diagonale soit de multiplicité p. Démontrer qu’au moins p — 1 éléments sous 
diagonaux de cette matrice sont nuls. 

2. Supposons qu'une matrice symétrique tridiagonale possède plusieurs 
éléments extra-diagonaux nuls. Cela signifie-t-il que la matrice possède des 
valeurs propres multiples ? 

3. Soit À la matrice (44.2). Désignons par 4, la matrice du mineur princi- 
pal d’ordre r. Démontrer que pour tout r > 1 les matrices 4, et 4,1 ne possèdent 
pas de valeurs propres communes. 

Sous les conditions de l’exercice 3 démontrer que pour tout r > 1 entre 
chaque deux valeurs propres de 4, voisines se trouve une valeur propre de 
AF+1 et une valeur propre de 4,1. 

5. Démontrer que dans les conditions d’une croissance (décroissance) du 
coefficient &æ, de la matrice (44.2), toutes les valeurs propres restent bornées, 
à l’exception de la valeur propre maximale (minimale). 

6. Démontrer que dans les conditions d’une croissance illimitée du module 
du coefficient B,, -, de la matrice (44.2), toutes les valeurs propres restent bornées 
à l'exception des valeurs propres maximale et minimale. 

7. Analyser les processus de calcul des signes des mineurs principaux d’une 
matrice jacobienne dndés sur l’élimination des éléments par matrices de rota- 
tion ou matrices élémentaires non unitaires. 

8. Les matrices des perturbations équivalentes qui apparaissent lors de la 
résolution de l’exercice 7 seront-elles symétriques et tridiagonales ? 

9. Etablir la relation entre les valeurs propres et la petitesse de l’élément 
extra-diagonal minimal en module d’une matrice jacobienne. 

Démontrer que pour de grands n, la valeur propre maximale de la 
matrice jacobienne W::,, d'ordre 2n + 1 aux éléments 


m=n—i+1, ff, = 1, (44.20) 


pour tout i, se distingue de la valeur propre la plus proche d’une quantité 
d'ordre (n!)-°. 

11. Montrer que la méthode de bissection convient également pour les 
matrices hermitiennes complexes. 


$ 45. Algorithme QR 


Soit À une matrice réelle arbitraire d'ordre nr. Construisons la sui- 
te des matrices orthogonales Q, et des matrices triangulaires 
supérieures À, d’après les formules de récurrence suivantes: 


A= Q:R:, À; DE RQ: 


A,= Q2R2, À; — R:Q2 
Zn  . (45.1) 


On montre aisément que pour tout k les matrices À, de (45.1) 
sont semblables à la matrice initiale À. En effet, 


Ar = Qx (QnRr) Qn = Qn (Rn-1Qn-1) On = +. 
se = (Que. On) A(Q: -.. Qn)- 
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En introduisant la notation Q,, ... Q, — P:, nous tirons que 
A, = Py APye (45.2) 


Les matrices Q, étant orthogonales, les matrices P, le seront égale- 
ment. C’est pourquoi les 4, sont orthogonalement semblables à À. 
Les relations (45.1), (45.2) permettent d'obtenir encore un corol- 
laire. Considérons le’produit des matrices triangulaires supérieures 


Rp... Ri = Un; 
on a 
P;Ur — Pr (QkR3) Ur- — Pr (Rr-1Qn1) Uz 7 
= Py- (Pr 4Pr) Ur = À (PraUn)= +. = A. 
Par conséquent, 
P, U, —— A7 


c’est-à-dire pour tout À de la matrice P,, les U, sont des facteurs 
orthogonaux et triangulaires supérieurs dans les décompositions 
correspondantes des puissances de la matrice À. 

Examinons maintenant la structure des matrices A* pour de 
grands À. Admettons que la matrice À soit non dégénérée. Mettons- 


la sous la forme 
A=Q@AQ", (45.3) 


où À est la matrice canonique supérieure de Jordan, et soit D — 
= {l,..., À} la matrice diagonale des valeurs propres. Supposons 
qu'’existe la décomposition Q-! = LU, où L est une matrice tri- 
angulaire inférieure aux éléments diagonaux unités; ÜU, une matrice 
triangulaire supérieure. Il est clair que A* — QA"Q-'; les égalités 


A* = P,Ux = QA*Q"1 = (QA*LD*) DAU 
permettent donc de tirer que 
A = P;'QAFLD =U,U"1D"* 
est une matrice triangulaire supérieure. Ensuite, nous trouvons 
Pi'=A,DAL 1A*QT!, P,=QA"LDr*A;!, 

d'où, conformément à (45.2), (45.3), il résulte que 
A, = A, DFL IA Q"1QAQTIQAËLD A; — 

—A,{D*(LAL)D"#}A;. (45.4) 


Sans limiter la généralité on peut admettre que les valeurs pro- 
pres de la matrice À reposent sur la diagonale de la matrice A dans 
l'ordre décroissant des modules, c'est-à-dire 


Ml=... => Mnl= ... =>... 
e>œfinml=..=fA ll. (45.5) 
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Examinons la matrice B — L-'AL. En tenant compte de la forme 
des matrices L et À, il est aisé d'établir que B est une matrice quasi 
triangulaire inférieure, dont les éléments au-dessus de la diagonale 
principale sont les mêmes que ceux de A. Si b;;sont les éléments de B, 
les matrices C, = D" (L-'AL)D-* de (45.4) ont comme éléments 


= by (M /À;)". (45.6) 


Partitionnons les matrices C, en sous-matrices de façon que les 
sous-matrices diagonales soient carrées et de mêmes dimensions que 
les groupes de valeurs propres égaux en module dans (45.5). Une telle 
partition fera de C, des matrices triangulaires par blocs inférieures. 
Donc, si 


k) k R 
CE CAC 


alors (45.5), (45.6) entraînent que pour une augmentation illimitée 
du nombre k, les éléments des sous-matrices diagonales ne changent 
pas leurs modules, alors que les éléments sous-diagonaux des sous- 
matrices convergent vers zéro. En désignant par 7, la grandeur 
des modules des valeurs propres du s-ième groupe de (45.5), nous 


tirons que les éléments des sous-matrices sous-diagonales de Cf? 
décroissent comme des quantités 


VP=O ((m/3)), ii. (45.7) 


De la sorte, pour tout k, les éléments de C,; restent bornés, alors 
qu'avec la croissance de k, les matrices C4 elles-mêmes s'approchent 
quant à la forme d’une matrice diagonale par blocs. La rapidité de 
cette approche est déterminée par les relations (45.7). 

Rappelons que les A4 de (45.4) sont des matrices triangulaires 
supérieures. Si les éléments de A, et de Aï' restaient bornés pour 
tout k, la formule (45.4) et la forme des matrices C, entraïneraient 
tout de suite que, pour une augmentation illimitée de kX, les matri- 
ces À, s’approchent quant à leur forme à la vitesse (45.7) de la matri- 
ce triangulaire par blocs supérieure aux sous-matrices diagonales de 
mêmes dimensions que celles des matrices C3. 

Les matrices A,, A; sont bornées à l’avance si À est de structure 
simple. En effet, dans ce cas, À = D et alors 


Ax=P;'Q(D*'LD*), Aët= (D#L"1D"#) Q7'P,. 
Les matrices P,, P;! sont bornées du fait de leur orthogonalité; 


les matrices Q, Q-! sont constantes. Quant aux éléments des matri- 
ces D'LD* et D*L-1D, ils ne dépassent pas en module les élé- 
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ments correspondantes des matrices L et L-! en vertu des relations 
de la forme (45.6) qui associent ces éléments. 

Dans le cas général, l'exploration des matrices A4, Aï* est un peu 
plus compliquée. Ecrivons A;, Aï;' sous la forme 


A, = PQ (AD!) (D*LD), 
At= (D*L-1D+) (DFA) Q1P,. 


Il est clair que si les éléments des matrices A;, A! croissent, cette 
croissance n’est pas plus rapide suivant l’ordre que celle des élé- 
ments des matrices A*D* et DA. 


Lemme 45.1. Soient la matrice À non dégénérée et l’ordre mazi- 
mal pour elle de la cellule canonique de Jordan égal à s. Alors, pour de 
grands k, les éléments des matrices A*D-* et D'A* sont des quantités 
O (75. 

Démonstration. La matrice À est une matrice diagona- 
le par blocs et ses sous-matrices sont des cellules canoniques de 
Jordan. C'est pourquoi il suffit de justifier l'affirmation du lemme 
seulement pour le cas où A est une seule cellule de Jordan. 

Ainsi. supposons que À soit une cellule de Jordan d’ordre s à va- 
leur propre non nulle À. Il est clair qu’à cette cellule correspondra la 
matrice D — ÀE. Utilisons la représentation asymptotique de la 
matrice A [2] 


At GER + e:) Gr. 
Ici GL est la matrice diagonale aux éléments 
gh = (k/À)\, i=1, 2, ss S; (45.8) 
R, la matrice taringulaire supérieure aux éléments 
ry=1/G—i)l, j2>i 
tous les éléments de la matrice &,; tendent vers zéro avec la croissance 
de 4. Maintenant on obtient que 
AD" = GA (R + ex) Ghs 
DFA” = Gi (R + Er) 1 Ge 
D'après (45.8), pour de grands k, l’élément maximal de ces matrices 
se trouve en position (1, s) et sa grandeur est O (4-1). 
Si l’on revient à l’estimation de la rapidité éventuelle de la crois- 


sance des éléments des matrices A,, Aj!, le lemme démontré entraîne 
que 

Les éléments des matrices A,, Aÿ' ne dépassent pas par ordre de 
croissance k° “1, si l’ordre des cellules de Jordan de La matrice À ne dé- 
passe pas s. 

Les matrices À, construites conformément à (45.1) sont unitaire- 
ment semblables à la matrice À : les éléments de ces matrices sont 
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donc bornés régulièrement par rapport à k. Mettons la matrice À; 
sous une forme partitionnée 


al 4% 40...4ù | U5.9 


où les sous-matrices diagonales A sont carrées et de mêmes dimen- 
sions que les groupes des valeurs propres égaux en module de (45.4). 
La formule (45.4), les propriétés établies des matrices C, et les 
estimations de la croissance des éléments des matrices A,, A;! permet- 
tent de tirer que si l’ordre des cellules de Jordan de la matrice A ne 
dépasse pas s, les éléments des sous-matrices sous-diagonales A(? 
convergent vers zéro comme les quantités 


VO = O (RO (rix)*). (45.10) 


Dans ces conditions, les valeurs propres des sous-matrices diagonales 


A convergent vers les valeurs propres du i-ième groupe de (45.5). 
Pour que les matrices 4, s’approchent de cette façon d’une matri- 
ce triangulaire par blocs supérieure, il suffit que lors de l’ordonnance- 
ment des éléments diagonaux de la matrice À conformément à (45.5) 
les mineurs principaux de la matrice Q-! de la décomposition (45.3) 
soient distincts de zéro. 
Poussons le processus (45.1) assez loin pour que tous les éléments 


des sous-matrices sous-diagonales 4% de la matrice A, deviennent 
petits. En remplaçant ces éléments par des zéros, on obtient une 
matrice triangulaire par blocs supérieure À,. Pour elle la résolution 
du problème des valeurs propres est bien plus simple que pour la 
matrice À, du fait qu'ordinairement les groupes des valeurs propres 
égales en module ne sont pas grands. Notamment, si toutes les valeurs 
propres de la matrice À sont distinctes en module, À, s'avère être une 
matrice triangulaire. 

En utilisant les résultats de la théorie des perturbations, on peut 
affirmer que les valeurs propres et les vecteurs principaux de la ma- 
trice À, peuvent servir de bonnes approximations pour les valeurs 
propres et les vecteurs principaux de la matrice À4,. Donc, après 
avoir résolu le problème des valeurs propres de la matrice À,, on 
obtient, conformément à la transformation de similitude (45.2), la 
solution approchée de ce même problème pour la matrice initiale À. 

La méthode numérique de résolution du problème des valeurs 
propres fondée sur la construction de la suite des matrices A, d’après 
(45.1) s'appelle algorithme QR. Mais suivant l'usage on entend par 
algorithme QR quelque chose de plus vaste, aui inclut tout l’ensem- 
ble des méthodes d'accélération. 
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EXERCICES 


1. Examinons le processus (45.1) dans lequel les matrices R; sont des ma- 
trices triangulaires supérieures, alors que les matrices Q@, sont telles que les 
normes des matrices correspondantes P;, P;l soient bornées régulièrement par 


rapport à k. Analyser le comportement asymptotique des matrices 4}. 

2. Le volume des calculs se réduit-il sensiblement lors de l’obtention des 
produits RQ, de (45.1) à l’aide de la forme triangulaire des matrices R;, ? 

3. Comment change l’analyse du processus (45.1) dans le cas de la dégéné- 
rescence de la matrice À ? 


4. Désignons par L; (À) le polynôme dont les racines sont toujours les 
valeurs propres du i-ième groupe de (45.5); par 19) (À), le polynôme caracté- 
ristique de la sous-matrice A de la matrice À, représentée suivant (45.9). 
En appliquant le lemme 11.2 démontrer que 


L® Q)= Li (À) +0 (KT D (rafes)}), 

L$9 Q)= Li (À)+0 (50 (r/cs 1) + 
HOUR -D (uult)}), 14, m, 

LD (À) = Lm (À) +0 (KE D (tm/Tm_1)*) 


5. Supposons que pour un certain à toutes les racines du polynôme Z, (À) 
sont égales entre elles. Démontrer que les sous-matrices diagonales A des 


matrices (45.9) s’approchent des matrices triangulaires. Quelle est la vitesse 
de cette approche ? 


6. Soient la matrice normale À et D Pan QR respecté d’après la 


prescription (45.1). Démontrer que la suite des matrices 4, s'approche d’une 
matrice diagonale par blocs. 


7. Dans les notations de l’exercice 4 et sous les conditions de l’exercice 6 
démontrer que 


LD (A)= L (À)+ 0 ((ts/t1)2à), 
LV (A)= Li (A) + Q ((re/ti Ph) + O0 ((tel/u)*), i 1, m, 
LQ (à) = Lm (À) +0 ((Tm/Tm=1)2*) - 


| 8. Montrer que l'algorithme @R concerne également les matrices com- 
plexes. 
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L'un des facteurs essentiels de l’accélération de l'algorithme QR 
est l'invariance du processus (45.1) par rapport à la forme quasi trian- 
gulaire supérieure de la matrice. En effet, soit À une matrice quasi 
triangulaire. On peut alors admettre que la matrice Q, est le produit 
TioT 93 + : - Tn-un des matrices de rotation. Mais, dans ce cas, la 
matrice À, sera de nouveau une matrice quasi triangulaire supérieure. 
Cette même forme auront certainement toutes les matrices À;. 

Si la matrice À est une matrice complète ne possédant pas de 
particularité, un pas du processus (45.1) impose l’exécution de (10/3)n° 
15—0484 
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opérations arithmétiques. Mais si À est une matrice quasi triangulai- 
re supérieure, un pas ne demande que 67° opérations. C’est pourquoi 
chaque pas du processus (45.1) se fera à peu près »/2 fois plus vite si 
par une transformation de similitude on réduit au préalable la ma- 
trice À à la forme quasi triangulaire supérieure. Une telle transfor- 
mation a été décrite et discutée au $ 32. 

Supposons que l'élément a;:,, ; de la matrice quasi triangulaire 
supérieure est nul. Partitionnons À en quatre blocs de façon que les 
sous-matrices diagonales soient carrées et la sous-matrice de l’angle 
à gauche supérieur ait l’ordre j. Alors, la sous-matrice de l’angle 
à gauche inférieur sera nulle, c'est-à-dire 


11 2 
ass 5] us 


Sous cette forme le processus (45.1) est invariant ; de plus, à tous 
ses pas la sous-matrice de l'angle à droite inférieur se transforme 
indépendamment des autres blocs. Par conséquent, l'application 
directe de l’algorithme QR à ces matrices n’a aucun sens. 

Si nous nous intéressons seulement aux valeurs propres de la 
matrice À, il suffit de déterminer les valeurs propres des sous-matri- 
Ces A1, Ge. Même en calculant les valeurs propres de la matrice (46.1), 
il est avantageux de chercher d’abord les valeurs propres des sous- 
matrices Œyy, Geo. Aussi, chaque fois que pour telle ou telle raison 
quelques-uns des éléments sous-diagonaux d’une matrice quasi 
triangulaire supérieure s’annulent, nous poursuivrons l'application 
de l'algorithme QR seulement aux matrices correspondantes de plus 
petites dimensions. 

Ceci rend, certes, plus difficile l’utilisation de l'algorithme QR 
pour la détermination des vecteurs propres. Pourtant, nous montre- 
rons dans ce qui suit, qu'après avoir calculé les valeurs propres on 
peut obtenir très efficacement les vecteurs propres. 

Dans ce qui suit nous admettrons partout que l'algorithme QR 
est appliqué aux matrices quasi triangulaires supérieures à éléments 
sous-diagonaux non nuls. 

Si l'une des valeurs propres d’une telle matrice est multiple, elle ne 
doit faire partie que d'une cellule canonique de Jordan. En effet, sup- 
posons qu’à la valeur propre À correspond plus d’une cellule de 
Jordan de la matrice À. Alors, le rang de la matrice À — ÀE ne doit 
pas être plus grand que rx — 2. Mais il n'est pas à l’avance inférieur 
à n — 1, puisque les éléments sous-diagonaux sont distincts de zéro, 
et, par conséquent, le mineur situé dans les premières nr — 1 colonnes 
et les dernières n — 1 lignes diffère de zéro lui aussi. Cette réduction 
à l'absurde confirme la propriété annoncée. 

Cette propriété entraîne, en particulier, que si la matrice quasi 
triangulaire supérieure aux éléments sous-diagonaux non nuls est de 
structure simple, toutes sesvaleurs propres sont distinctes. Comme le 
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montre l'exemple de la matrice (44.20), nous ne pouvons pas espérer 
que la présence des valeurs propres très proches fera obligatoirement 
apparaître des éléments sous-diagonaux très petits. 

Examinons maintenant une suite quelconque des nombres wv,, 
Ve, . . . Construisons de nouveau les matrices orthogonales Q, et les 
matrices triangulaires supérieures R, d'après les formules de récur- 
rence 


A—VE=QihRy A=RIQ+UE, 


Ai—VE—QR2 A:=RiQ2+vE, 
RE . (46.2) 


Si À est une matrice quasi triangulaire supérieure, toutes les 
matrices À, auront une forme analogue. Il est facile à montrer comme 
précédemment, que les matrices A, sont orthogonalement semblables 
à la matrice initiale À ; de plus, 


An = (Qi. - -Q:) 4 (Q1. - . Qu), 
(Q1-..Qu)(R ne. R1)=(A—V,ENA—V.E)...(4...v2E). (46.3) 


En supposant que pour une certaine indexation des valeurs propres 
A) , ..., MP), en général dépendant de k, on vérifie les inégalités 


à k k 
Lviv. Zu 6.4 
(R) 


on obtient que les éléments sous-diagonaux a;i}1,; de la matrice 4, 
sont des quantités d'ordre 


k 
a = © GET IT Gi Av). 


Les nombres v,, v., ... de (46.2) s'appellent décalages. En les 
choisissant convenablement on peut accélérer sensiblement la con- 
vergence de l'algorithme QR. 

Au fond, toutes les stratégies connues du choix des décalages comp- 
tent deux étapes différentes. À la première étape, on assure d’une 
certaine façon la décroissance notable d’un des éléments sous-diago- 
naux de la matrice A,. Pour les matrices de structure générale, cette 
étape, en général, ne possède pas de justification théorique, mais 
son efficacité est confirmée expérimentalement. La petitesse de l’élé- 
ment sous-diagonal permet à la deuxième étape d'effectuer le choix 
orienté des décalages. On assure ainsi la décroissance bien plus 
rapide de l'élément sous-diagonal. 

Soit l’élément a;71,; ne dépassant pas en module le petit nom- 
bre e. Montrons maintenant comment choisir les décalages pour que 


15* 
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la décroissance des éléments a), ; ne soit pas inférieure à la 
décroissance quadratique. | | | 

Partitionnons la matrice 4,, en blocs de mêmes dimensions que la 
matrice de (46.1). Si cette partition est notée 


re LE se 
"  Laf” afp 

alors, les sous-matrices diagonales a;°”, «%’ sont des sous-matrices 
quasi triangulaires supérieures, et la sous-matrice a,” ne possède 
qu'un élément non nul d'ordre & à l'angle à droite supérieur. 

Calculons suivant un mode quelconque, par exemple d’après la 
formule (26.5), le polynôme caractéristique f, (À) de la matrice «7. 
En tenant compte de l'inégalité (46.4) pour À — m, nous tirons que 
d’après le lemme 11.2 les quantités f,, (\9"”) seront au moins d'ordre & 
pour g>j et ne seront pas petites pour g < j. Désignons par 
Vm+is + + 1 Vm+nÎ) les racines du polynôme f,, (À) et exécutons à titre 
de supplément n—j pas du processus (46.2), en adoptant vh41,... 
….... Vm+n-) Comme décalages. Examinons les inégalités correspon- 
dantes (46.4) pour # = m +n — j. Pour de petits e, les ensembles 
des valeurs propres À7”, ARS, avec qg > j, seront les mêmes. 

Mais dans ce cas 


in n+n—j Agntn-5) 4, 
2 . e Ss— ») PRE 
arr n=0O [om | n—)) Il Agm+ ni) 4, }= 
Imi 


M (m+n—j) _ 
= 0 (m0 Il enr e) x 


(m+n—j) _ 
ur À Vt 


+ mn Ann) Vi 
J 


l=m+i 


FF: am) 
<0(m°e-0 I] Fi) x 


m) _ 
[mi À VI 


4) fm AT) 
| + 2(s—1) +1 


En reprenant, suivant un mode cyclique tous les nr — j pas du 
processus (46.2), le choix décrit des décalages, nous assurerons pour 
le moins la vitesse quadratique de la décroissance des éléments sous- 
diagonaux aps. y. Dès que le terme en position (j + 1, j) devient 
assez petit, nous pouvons l’annuler sans perdre pour autant sensible- 
ment en précision et poursuivre l'application de l’algorithme QR 
aux matrices de plus petites dimensions. 


= am) O(e)=0 (e?). 


2+1,9 
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La réalisation pratique du processus d'accélération d’après le 
schéma exposé n'est pas toujours efficace. Supposons que la matrice 
réelle À possède des valeurs propres complexes. Dans ce cas les raci- 
nes du polynôme réel f,, (À) peuvent compter des couples conjugués 
complexes. Mais alors, certaines des matrices À, intermédiaires seront 
complexes, bien que la matrice 4,,+,-; soit réelle. L'apparition des 
matrices complexes est indésirable aussi bien du point de vue de Ia 
durée du calcul que du point de vue de l’utilisation de la mémoire de 
l'ordinateur. Aussi allons-nous montrer comment calculer la matrice 
À m+n- en évitant l'obtention des matrices À, intermédiaires. À cet 
effet nous aurons besoin du 


Lemme 46.1. Supposons que lu matrice À vérifie les transforma- 
tions unitairement semblables 


C,=TYAT,, C>=T'AT,, 


C;, C2 étant des matrices quasi triangulaires aux éléments sous-diagonaux 
non nuls. Si les premières colonnes des matrices T;, T, coïncident, il 
existe une matrice diagonale S aux éléments égaux en module à l'unité 


telle que 
Ta = TS, Co = S*CS. (46.5) 


Démonstration. Au fond, il nous suffit de montrer que si 
la matrice unitaire Z et la matrice quasi triangulaire supérieure C 
aux éléments sous-diagonaux non nuls sont liées par la relation 


AT =TC, (46.6) 


alors, la première colonne de 7 étant donnée, la détermination des 
matrices T, C est dans l'essentiel univoque. 

Désignons par #,, .- .., {, les colonnes de la matrice T'; par c;;, 
les éléments de la matrice C. Egalons les premières colonnes des pre- 
mier et deuxième membres de (46.6) pour obtenir 


Ati = Cigti + Costa 


T étant une matrice unitaire, il vient 
Cu =(Ats, ti), 
Cas = Ci || Ati — Cut Îles 
l2= (Q24/Cos) (Ati — cuits), 


où &+1 est un nombre complexe arbitraire égal à l’unité en module. 
En égalant les deuxièmes colonnes de (46.6), on obtient 


At: —— Cols + Cooto + Cala 
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d’où il résulte que 
Ci2 = (Al, ts), 
Ca = (At, t2), 
Cage = Ago || At — Ciats — Conte [les 


ts = (&s2/C32) (At — Cints — Conte). 


Ici encore «;, est un nombre complexe arbitraire égal en module 
à l'unité. 

En poursuivant le processus, établissons que la détermination 
de toutes les colonnes de la matrice T, depuis la deuxième, est univo- 
que à la multiplication par les nombres complexes égaux en module 
à l'unité près. Ceci justifie les relations (46.5). 

Maintenant passons à la justification du calcul de la matrice 
Amtn-j Il est manifeste que 


Am+n-; = Tn-jAmT n-j) Th-ÿLn-; — Îm (4m) 


pour une certaine matrice orthogonale T,_; et une matrice triangu- 
laire supérieure L, _;. 

Supposons que nous avons trouvé par un moyen quelconque la 
matrice orthogonale T telle que sa première colonne coïncide avec la 
première colonne de 7,-_;, la matrice C = T'A,T étant une matri- 
ce quasi triangulaire supérieure. Deux cas sont alors possibles. Si 
tous les éléments sous-diagonaux de la matrice C sont distincts 
de zéro, alors, d'après le lemme 46.1, 


T=T,-;S, C=S'Am+rn-;S 


où S est la matrice diagonale aux éléments égaux en module à l’uni- 
té. Les modules des éléments correspondants des matrices 4,+,-; 
et C sont les mêmes: ilest donc indifférent laquelle d’entre elles 
servira pour poursuivre l'algorithme QR. Nous utiliserons la matri- 
ce C. S’il s'avère que certains des éléments sous-diagonaux de la 
matrice C sont nuls, ce sera un cas encore plus favorable, car on peut 
poursuivre l’application .de l’algorithme QR avec des matrices de 
plus petites dimensions. 

Théoriquement, la matrice T,_; peut s’obtenir comme un produit 
des matrices de rotation, en éliminant les éléments sous-diagonaux 
Îm (Am), par exemple, suivant les colonnes de haut en bas. Admettons 
que 

A n --- T'iofm (Am) . Lh-;. 


En vertu de la construction des matrices de rotation, la premiè- 
re ligne du produit T,, ... T;, coïncide avec la première ligne du 
produit Th-1,n -.. Ti, et par conséquent avec la première ligne 
de la matrice T,_;. Mais les matrices T;,,. . ., T;,, ne sont détermi- 
nées que par la première colonne de fh (4), dont seulement les pre- 
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miers n — j + 1 éléments peuvent être distincts de zéro. C’est pour- 
quoi, en réalité, la première colonne de la matrice 7, _; coïncide avec 
la première colonne du produit 7,,...T. 

Calculons la première colonne de la natrice 2 (A ») et détermi- 
nons d’après cette colonne les matrices de rotation correspondantes 
Toy + + + Ti, n-j +1. Obtenons ensuite la matrice 


B=T\. n-j+i <> T'iAmT 3 .…. Ti, n—-)+1 (46.7) 


et réduisons-la à l’aide de l’algorithme décrit au $ 32 à une matrice 
quasi triangulaire supérieure orthogonalement semblable. Ce sera 
justement la matrice C dont nous avons besoin. 

En effet, la matrice quasi triangulaire nouvelle est obtenue comme 
produit de la forme P’BP. Par construction, la première colonne et 
la première ligne de la matrice orthogonale P coïncident avec la 
première colonne et la première ligne de la matrice unité. Par consé- 
quent, la première colonne de la matrice T,_; coïncidera avec la pre- 
mière colonne de la matrice T;,,...T; n-+1 P. Cette dernière ma- 
trice est non seulement orthogonale, elle est encore une matrice de 
transformation de similitude qui réduit À,, à une matrice quasi trian- 
gulaire supérieure, c’est-à-dire qui jouit des propriétés de la matri- 
ce TZ. 

La matrice B de (46.7) possède de nombreux éléments nuls et se 
distingue de la matrice quasi triangulaire supérieure par le fait que 
presque tous les éléments du mineur principal d'ordre nr — j + 2 
peuvent être distincts de zéro. La forme spéciale de la matrice B 
est facilement prise en considération lors de sa réduction à la forme 
quasi triangulaire. A toutes les étapes de la réduction, les matrices 
intermédiaires se distinguent de la matrice quasi triangulaire supé- 
rieure par le fait que presque tous les éléments d’un certain mineur 
d’ordre r7 — j + 2 qui s'appuie sur la diagonale principale, peuvent 
être distincts de zéro. À mesure que le processus de réduction pro- 
gresse, ce mineur se déplacera en bas suivant la diagonale. 

Dans l'ensemble, l'obtention directe de la matrice A4,+:,-; 
à partir de la matrice À, impose à peu près le même volume de cal- 
cul que son obtention successive en r — j pas du processus (46.2) 
avec décalages réels. Mais, par contre, il ne faut pas chercher les 
racines des polynômes. Pourtant, le volume de mémoire supplémen- 
taire, nécessaire pour emmagasiner les résultats des calculs intermé- 
diaires, croît rapidement avec la diminution de j. 

L’accélération décrite de la convergence de l’algorithme QR est 
particulièrement efficace lorsque j nr — 1. Dans ce cas, le décalage 
successif vn+1 coïncide avec le dernier élément diagonal de la ma- 
trice À,, et sera réel à l'avance. C'est pourquoi l'obtention directe de 
la matrice A,+, n’est pas obligatoire, alors que la décroissance 
quadratique de l'élément sous-diagonal aura lieu à chaque pas du 
processus (46.2). Mais si la matrice réelle À possède des valeurs pro- 
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pres complexes, l'obtention directe de la matrice 4,+,-; peut 
s'avérer nécessaire sous la condition, certes, que nous voulons réali- 
ser seulement des calculs réels. Dans ce cas, l’obtention directe de la 
matrice Am+n-; est la plus efficace pour j = r — 2. L'apparition 
inévitable de petits éléments sous-diagonaux à valeur inférieure de j 
est liée surtout à la présence dans la matrice À de cellules canoniques 
de Jordan de grandes dimensions. 

Pour résumer, dénombrons encore une fois les modes d'’accéléra- 
tion du calcul lors de l’application de l’algorithme QR. 

1. Réduction préalable de la matrice À à la forme quasi triangu- 
laire supérieure. Sans cette réduction on n’emploie généralement pas 
l'algorithme @R. 

2. Utilisation des décalages pour accélérer la décroissance des 
éléments sous-diagonaux. En présence des valeurs propres complexes 
le plus efficace est d’obtenir les matrices 4, directement de (46.2). 

3. Substitution de petits éléments sous-diagonaux par des Zéros. 
Ceci permet de poursuivre l'application de l'algorithme QR aux 
matrices de plus petites dimensions. 

Dans les procédés d'accélération il reste à élucider une seule 
question : comment s'attaquer au choix des décalages pour obtenir 
assez vite le petit élément sous-diagonal en position (j + 1, j) avec 
la plus grande valeur possible de j ? A l'exception de certaines classes 
spéciales des matrices, on n’a pas encore obtenu de réponse argumen- 
tée à cette question. Dans les cas courants les stratégies du choix des 
décalages qui assurent la décroissance des éléments sous-diagonaux 
sont trop lentes. 

Nous allons donner maintenant la description d'une des procé- 
dures pratiques du choix des décalages. Bien que son application 
présente un certain risque, elle est assez efficace. 

Le processus débute par le calcul de la matrice 4, avec v, — 
Vérifions l'observation de l'inégalité 


1 
—1 en ei 
ja au-0 1 | a] 


Si elle est vraie, cherchons la matrice 4,+, en adoptant v»+1 — 
— af}. Mais si cette inégalité n’a pas lieu, vérifions l'observation 
d’une autre inégalité 


oc — am 511 |] am |, 


où a‘%-M, a" sont les sous-matrices de deuxième ordre des matri- 
Ces À m1 Am qui se trouvent dans l’angle à droite inférieur. Si cette 
inégalité est respectée, calculons le polynôme caractéristique de la 
matrice a‘ pour trouver la matrice 4,,:. en utilisant la méthode 
directe de son obtention. Mais si cette dernière inégalité n’a pas lieu 
non plus, cherchons la matrice 4,+.,, en choisissant v,+, — 0. Bien 
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sûr, dès qu’il devient possible, remplaçons les petits éléments sous- 
diagonaux par des zéros et poursuivons l'application de l'algorithme 
QR aux matrices de plus petites dimensions. 

L'application de cette procédure a montré que le nombre moyen 
d’itérations par chaque valeur propre ne dépasse généralement pas 5. 
Le processus est particulièrement stable. L'analyse des erreurs d’arron- 
di est couverte complètement par l'analyse effectuée dans ce qui 
précède. Si l’on admet que chaque valeur propre de la matrice À 
impose pas plus de cinq itérations, les valeurs propres calculées seront 
exactes pour une certaine matrice perturbée À + E; de plus, 


= 201/2+25 , 
LE le VITE ppt | Alle. 


EXERCICES 


1. Soit À une matrice bande hermitienne. Démoi.trer que toutes les matri- 
ces Az de (46.2) obtenues par décalages réels seront hermitiennes et bandes de 
la même largeur. 

2. Améliorer le lemme 46.1 si l’on sait en plus que les éléments sous-dia- 
gonaux des matrices C,, C. sont positifs. 

3. Examiner l'application des transformations de Householder lors de 
l'obtention directe de la matrice 4,,+,-;à partir de la matrice 4,,. Leur applica- 
tion présente-t-elle un avantage, si n — j > 2? 

4. Soient une matrice normale À et l’application de l’algorithme QR avec 
décalages. Démontrer que dans le mode du choix des décalages décrit précédem- 
ment, on assure la décroissance cubique des éléments sous-diagonaux. 

. 5. Soit un ensemble donné de 4 Dante qui ne sont pas des valeurs pro- 
QT de la matrice À. Supposons que dans Île processus (46.2) pour deux ordres 
ifférents du choix de décalages de cet ensemble on ait obtenu les matrices 
A, et 43. Démontre: que lorsque les calculs sont exacts, 4; — SYA°Sz, où Sy 
est la matrice diagonale aux éléments égaux en module à l’unité. 
6. Supposons qu’au lieu des matrices 4}, A; de l'exercice 5 on ait obtenu 


les matrices 4;, 4%. Démontrer que dans le cas général, il n’existe pas de fonc- 
Le f(k, n) ne dépendant pas de À, telle que pour tout À on vérifie l’inéga- 
it 


min | An— 5945531, n)p-t+1| 4. 
SR 
Ici S, sont des matrices diagonales aux éléments égaux en module à l'unité. 
7. Dans quel sens les matrices A}, 4% de l’exercice 6 peuvent être dites 
proches ? 


$ 47. Calcul des vecteurs propres 


Les méthodes numériques de résolution du problème des valeurs 
propres passées en revue sont mieux adaptées au calcul des valeurs 
propres qu'à celui des vecteurs propres. Ainsi, l'application de la 
méthode des rotations ou de l'algorithme Q@R à la recherche des 
vecteurs propres impose le calcul supplémentaire et la mémorisation 
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de la matrice de transformation de similitude résultante. Cette opé- 
ration est très désavantageuse s'il faut déterminer seulement quel- 
ques vecteurs. D'autant plus, que le calcul de la matrice de transfor- 
mation complique la méthode numérique. C’est le cas surtout de 
l'algorithme QR, lorsque le passage aux matrices de plus petites 
dimensions lors de l’apparition des éléments sous-diagonaux nuls est 
rendu plus difficile. L'utilisation de la méthode des bissections ne 
fournit en général aucune information explicite sur les vecteurs 
propres. 

Autant de raisons qui nous poussent à examiner avec plus d'atten- 
tion le calcul des vecteurs propres d’après les valeurs propres déter- 
minées au préalable. 

Supposons qu’il nous faut chercher les vecteurs propres de la 
matrice À. Prenons un vecteur arbitraire w, et construisons les suites 
des vecteurs 

Ur = ar AUp-1, (47.1) 


pour # > 1 et certains nombres &,; non nuls. Il est clair que 
h 
ux = Brd'uo, Ba = [] a. 


Décomposons la matrice À en produit de facteurs (45.3) et admettons 
que les valeurs propres de la diagonale de la matrice A sont ordon- 
nées d'après (45.5). Il vient 


up = PQ (A*D”*) D'Q'1u,. (47.2) 


Ici D est la matrice diagonale des valeurs propres. 

Supposons que conformément à (45.5), L est un sous-espace 
tendu sur les premiers r, vecteurs colonnes de la matrice Q:; Lt est 
son complément orthogonal. Mettons les vecteurs zu, sous la forme 


É 
Ug = UT) + Us ?, 


où EL; u{L”) € Lt. Si ue Æ 0, alors (47.2) entraîne que 
ul) = 0 pour tout k. Utilisons les résultats et les notations du $ 45 
et tirons ensuite de (47.2) que 


Il ul) Ile/1l D ||; =0 (KT * (T2/71)"). (47.3) 


Examinons les cas les plus importants de la distribution des 
valeurs propres maximales en module de la matrice À. 

1. Toutes les valeurs propres maximales en module coïncident et 
aucune d'elles ne fait partie de la cellule canonique de Jordan supé- 
rieure au premier ordre. 

2. Toutes les valeurs propres maximales en module coïncident et 
certaines d’entre elles font partie des cellules canoniques de Jordan 
d'ordre ne dépassant pas s. 
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3. Les valeurs propres maximales en module de la matrice 
réelle forment une paire conjuguée simple. 


La formule (47.2) entraîne que dans le premier cas, toutes les 


projections de u£” sont colinéaires. Par conséquent, au facteur de 


normalisation près, la suite des vecteurs u, converge à la vitesse 

(47.3) vers l’un des vecteurs propres qui correspond à la valeur pro- 

pre maximale en module. Ce vecteur propre n'est déterminé que par 

- e (L) E e t ] t e 

: , 

la projection de u£ n jouant sur le vecteur z,, on peut obtenir 
divers vecteurs propres. 

Dans le deuxième cas, les projections de u(£) ne resteront pas 


colinéaires et leur position dans Z change conformément aux change- 
ments des éléments maximaux de la matrice A*D-*. Pourtant, 
à chaque k, le vecteur u, à (47.3) près sera procho d’un certain vecteur 
appartenant au sous-espace principal qui correspond à la valeur pro- 
pre maximale en module. En général, la convergence vers l’un des 
vecteurs propres aura lieu également. Cependant, elle ne présente 
pas de grand intérêt pratique, du fait que sa vitesse n’est que de 
l'ordre de k-1. 

Dans le troisième cas, le comportement de la suite des vecteurs uv, 
est sensiblement différent. Ses propriétés caractéristiques sont illus- 
trées par l’exemple suivant. Supposons qu’on ait pris comme À la 
matrice de rotation (18.2). On vérifie sans peine que 


4 bruts —sin ka 
— [sinka  coska |’ 


et alors 


cos (ka + 6) 
Ur — Pr | Uo Le de (ka + 4 
pour un certain nombre 6. Cela revient à ce que pour de grands k 
les coordonnées des vecteurs uv, varieront. Pour autant, le vecteur u, 
à (47.3) près sera proche d’un certain vecteur qui est la combinaison 
linéaire des vecteurs propres conjugués, ces derniers correspondant 
aux valeurs propres conjuguées maximales en module. 

Il est d'usage d'appeler le processus (47.1) itérations directes. Il 
est appliqué surtout pour déterminer la base principale qui corres- 
pond aux valeurs propres maximales en module. En utilisant les 
décalages on peut accélérer légèrement la convergence. Mais cette 
accélération ne peut pas être importante parce qu’il est impossible 
de rendre la relation t./t, suffisamment petite à l’aide des décalages. 

Si la matrice À de (47.1) est remplacée par la matrice À 71, les 
itérations directes peuvent également s’employer pour calculer les 
vecteurs principaux qui correspondent aux valeurs propres minima- 
les en module. 
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Désignons par L le sous-espace tendu sur les dernières colonnes 
de la matrice Q, qui correspondent, d’après (45.5), aux valeurs pro- 
pres minimales en module. Prenons un vecteur arbitraire u, et cons- 
truisons la suite des vecteurs 


Up = GR ATiup 4. (47.4) 


Les valeurs propres de la matrice À -! sont des quantités inverses des 
valeurs propres de la matrice À. C’est pourquoi, conformément à ce 
qui a été dit précédemment, dans le processus (47.4) la proximité 
des vecteurs u, au sous-espace principal L est déterminée par la 
relation 


Li) tn À 
uk Leo (x (—n) ). 


I #0) Ie Tm-1 


Du point de vue de la vitesse de convergence, la situation a changé 
en principe, puisque maintenant les décalages permettent de rendre 
le rapport th/tm-, suffisamment petit. 

Lors de la construction des vecteurs u, à partir de (47.4), on ne 
calcule généralement pas la matrice À -!, mais on cherche ces vecteurs 
par résolution des systèmes d’équations linéaires algébriques 


Aux = ARUp-4. 


D'après l'usage, ce processus se nomme itérations inverses. Ce sont 
précisément les itérations inverses qui constituent l’une des plus 
importantes méthodes numériques de calcul des vecteurs principaux 
d’une matrice d’après ses valeurs propres préalablement obtenues. 


Supposons qu’on connaît une approximation assez exacte À de 
la valeur propre À de la matrice À. Etablissons la suite des vecteurs 


(A—RE) uy = ap, (47.5) 


en partant d'un certain vecteur u,. Supposons que Z soit le sous- 
espace principal de la matrice À, qui correspond à À. Si 


e=[À—A], a= min [À—A|, 
À: 


il est évident que pour a > e, 
(age 1/ D le = O (KT (e/a)*). 


_ À première vue il semble que dans les calculs l'influence des 
erreurs d’arrondi doit modifier sensiblement les propriétés des itéra- 
tions inverses du processus (47.5). En effet, ce processus impose la 
résolution des systèmes d’équations. Certainement, nous pouvons 


nous attendre que les vecteurs u, réellement calculés vérifieront les 
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relations de la forme 
(4A—ŸE +E;) 0 = x (Uni + ns), (47.6) 


où les normes euclidiennes E;, n, sont limitées par les petites quanti- 
tés de E et de n. Si À est proche de À, les matrices du système (47.6) 


seront mal conditionnées. C'est pourquoi le vecteur u, de (47.6) se 
distinguera sensiblement du vecteur u, de (47.5). Mais il semblerait 


alors que la suite des vecteurs u, ne pourrait pas fournir une informa- 
tion bien sûre sur le sous-espace principal associé à À. 

Des arguments corrects dans leur ensemble nous ont amenés 
à une conclusion erronée. Si la résolution du système (47.5) contient 
une grande erreur, le vecteur des erreurs appartiendra surtout juste- 
ment au sous-espace que nous tentons de déterminer. Plus l'erreur 
de calcul du vecteur est grande, plus la précision avec laquelle ce 
vecteur appartient au sous-espace nécessaire est grande. 

Les erreurs d’arrondi ne peuvent pas faire varier sensiblement la 
vitesse générale du processus (47.5) et n’influent que sur la précision 
accessible. Maintenant 


Dim (SL A EP 1) = 9 (47.7) 


où g est en général distinct de zéro. Montrons comment évaluer le 
terme principal du nombre g. 

D'après le théorème de Schur [1}, il existe une matrice unitaire R 
telle que la matrice C = RAR soit une matrice triangulaire supé- 
rieure ; de plus, dans les diagonales de C les valeurs propres égales 
à À sont les premières. En effectuant la substitution 


z.= Ru, (47.8) 
on obtient au lieu de (47.6) la relation 
(C—LE + Ty) 2x = On (2n-1 + En-1). (47.9) 


Tr,= RER, Ex = Ra. 


Supposons que la multiplicité de la valeur propre À soit égale 
à r. D’après les résultats de la théorie des perturbations, il existe une 
petite matrice de la forme 


telle que 
B,=(E +H:)(C—RE +T;)(E +H;) 1 
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soit une matrice triangulaire par blocs supérieure. Si 


> = [Er mé | 
# Lo gp 


les blocs des matrices H,, B, de l'angle à gauche supérieur sont 
d'ordre r. Les valeurs propres de B% ne dépassent pas en module le 
petit nombre e dépendant du degré de proximité entre À et À, de la 
quantité E et, certainement, de la structure de la matrice À. Les 
modules des valeurs propres de B() sont bornés inférieurement par 
un certain nombre proche de a. En ‘effectuant la substitution succes- 
sive 


D] 


Ur — (E + H,)”! AT (47.10) 
on obtient au lieu de (47.9) une nouvelle relation 
Bavs = an (Ur-1 + 0x1); (47.11) 


081 = (E + H3) En-1 + (Ha — Hi) 2x1. 


Supposons que les normes euclidiennes 68,, H%) sont bornées par 
de petites quantités 0, H. Pour tout vecteur w, désignons par w, 
w” les vecteurs composés des premiers r et des derniers r — r coordon- 
nées de w. Maintenant, (47.11) entraîne que, dans le cas général, 


Tim(|4 I/ 24 |le) = O (80). 
Mais alors, il résulte de (47.10) que 
Tim (112% [le/ 2h le)  H. (47.12) 


D'après (47.8) on vérifie les égalités 
er L ” sc à # , L 
Hu e=lzlle Mu Ile=|za lle; 


c’est pourquoi (47.7), (47.12) permettent de trouver que g < H. 

La quantité H dépend de la structure interne de la matrice À. 
Si À possède une base de vecteurs propres, alors, conformément 
à (13.10), il vient 


H © (ve/2a)E, : 


où vQ est le conditionnement spectral de la matrice des vecteurs 
propres de Q de (45. 3). Pour les matrices normales on peut admettre 
Ve = 1. Par conséquent, dans ce cas, 


q & E/2a. (47.13) 
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EXERCICES 


1. Construire les alsorithmes de calcul des valeurs propres maximales 
en module de la matrice À en partant du processus (47.1). 

2. Construire les algorithmes de l’amélioration des valeurs propres de la 
matrice À en partant du processus (47.5). 


3. Démontrer que la matrice A — ÀE de (45.7) respecte l'inégalité 
I(A—RE)I| > et. 


4. Supposons que pour la matrice À la dimension maximale de la cellule 
de Jordan à valeur propre À est égale à s. Démontrer que 


1 (4 —2E)"1 [= 0 (e-*). 


5. Supposons que dans le processus (47.5) le paramètre @&, est choisi d’après 
la condition || u; | = 1. Démontrer que dans le cas général 


Jim | &h [= O (e”!), 
sup | ax | = 0 (e-1). 


6. Démontrer que sous les conditions des exercices 4, 5 pour s > 1 le vec- 
teur u, sera proche du vecteur propre qui correspond à À à ek-! près. 


7. Discuter du comportement des normes des résidus (A — ŸE) ux dans 
le processus (47.5). 


$ 48. Particularités des calculs 


Passons à l'examen du processus de la résolution des systè- 
mes (47.5). Du point de vue théorique, les propriétés des itérations 
inverses ne dépendent pas des nombres &;. Cependant, cela ne signi- 
fie pas qu’on peut prendre &;, — 1 et appliquer l’une des méthodes 


numériques décrites au chapitre V même dans le cas où À — ÀE est 
une matrice non dégénérée. Si les valeurs propres sont calculées avec 


une grande précision, la matrice À — ÀE sera très mal conditionnée. 
C’est pourquoi &, = 1 rend possible une croissance importante des 
éléments des calculs intermédiaires et présente un danger de débor- 
dement réel. Ce danger est éliminé par le choix correspondant des 
nombres œz. 
Considérons d’abord la résolution d’un système du type (47.5) 
à matrice triangulaire. Soient la matrice triangulaire supérieure € et 
le vecteur ! d'ordre x. Déterminons le vecteur x tel qu’il vérifie 
l'égalité 
Cu = al, (48.1) 


pour un certain nombre &, où [æ | < f. 

Désignons par c;;, l, les éléments de la matrice Cet du vecteur /. 
Cherchons les coordonnées du vecteur w à l’aide du processus qui 
rappelle la substitution inverse avec normalisation simultanée du 


240 PROBLÈMES DES VALEURS PROPRES [CH. VI 


second membre. Dans le cas |c,, | >> |, |, posons 
UM=llcan, AM=1, 
sinon, 
um) = 1, amM=c,h/lr. 
Si Con, in Sont simultanément nuls, il vient 
um)= 1, ami. 


Supposons que les nombres ufi50 ...u4+l) ait sont déjà calculés. 
Cherchons 


vi = ati), — ÿ cutitt), 
smiti 


Dans le cas |c;; | >> | y; | posons 
un = | Yuleus S=i, 


uGi+ 1), s>i, (48.2) 
sinon, 
7” : à S=i, 
Fs = | (cu/v)uftD, s>œi, (2) 


at) = (eu/y) att+d. 


Si ci5, Y: sont simultanément nuls, admettons que c; Yi = 1. Adop- 
tons comme uw le vecteur de coordonnées u:”,..., un. 

Evaluons l'influence des erreurs d’arrondi. Supposons qu’à tou- 
tes les étapes du calcul les zéros de la machine n’apparaissent pas. 
Supposons encore que les nombres obtenus ue .., ugrD gr 
peuvent être interprétés comme résultant des calculs exacts à partir 
des données perturbées 


= cn(A+en), g>i+1, hA>g, 


(48.4) 
Rto=lg({+nit)), g>i+i, 
où toutes les quantités ef), n£*!? sont d'ordre p ‘*!. Cette hypo- 


thèse est bien vérifiée dès le premier pas; de plus, 
Let Z (4/2) pti, nf = 0. 


Procédons au calcul 


ñn : Le n ei 
n=flLGt— D au tæ=(aton— À cut) (+0). 
smi+i smi+i 
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Si (48.2) a lieu, alors cherchons 
(1) fl (leu) = (vilcu) A+), s=i, 
Be 7] Si) | 
s 3 S> L. 
C'est pourquoi on peut admettre que les nouvelles quantités uf”, ... 


.., U9, a résultent des calculs exacts à partir de données pertur- 
bées 
Cgh (1— x), g=1i, h=i, 
Cgh (1 +0:), g=ti, kR> L, 
cn, g>i+i, h>e, 


FD — { lg (1 +05), g=ù, 
ErLHre g>i+1. 
Dans le cas où (48.3) a lieu, on trouve 


6 { L; Y:=0, 
lieu =(u) (x), 40, 


| S=i 
Cond ):_: 9 Dee _ . Li] 
ds { fl (Brut) = (cuil/Yi) TL (1 — %;) (1+%.,), s>i, 
a = f] (Bat) = (cux/ vs) a (1 — 2%) (1 + vi). 


Maintenant on peut admettre que le calcul de nouvelles quanti- 
tés est exact et qu’elles sont obtenues à partir des données 


: Cyr (1—%) (1+ vi), g=i, hk=i, 
D=4 Cen (+ Gi), g=i, h>i, 
(A+v)/(+v), gœi+1, De, 
= | lg (1+ 01) g=ài, 
Lan g>i+1. 


En tenant compte du fait que les erreurs sont bornées par la quantité 
(1/2)p-t#1, nous tirons de toutes ces relations que le vecteur réelle- 


Land 


ment calculé uw vérifie l'égalité 
(C+A)u=a(l+6). (48.5) 


& coïncide ici avec «1 et les perturbations À, ô vérifient les esti- 
mations 


IA <rp#t1lC Ile, 


…— (48.6) 
Iôlle< D 117Île. 


16—0484 
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Si les étapes intermédiaires des calculs font apparaître des zéros 
de la machine, les estimations (48.6) restent les mêmes, puisque leurs 
seconds membres changent seulement de quantités d'ordre w. A tous 
les pas du processus les données perturbées au lieu d’être de la forme 
(48.4) seront de la forme 


Ge con (A He) Hat, g>œi+i, A>eg, 
TO (Ant) HET, gœit1, 


où les quantités ei ?), n£*?? sont d'ordre p-t+1, et les quantités til, 


po d'ordre «. L'égalité (48.5) est encore observée, mais mainte- 


nant @ ne coïncide pas toujours avec a. Si œtt = 0, alors que 
tous les éléments diagonaux de la matrice diffèrent de zéro, l’égalité 


(48.5) est observée pour un & inférieur en module à ow. 
Sans limiter la généralité, on peut admettre que la matrice À 
du système (47.5) est une matrice quasi triangulaire supérieure. La 


matrice À — À E sera de forme analogue. Il est donc avantageux de 
procéder à la résolution du système (47.5) de la façon suivante. Le 
réduire d’abord par prémuiltiplication par une suite des matrices de 
rotation convenablement choisie, à un système à matrice triangulaire 
supérieure. Puis chercher la solution du système obtenu en appliquant 


le processus décrit ci-dessus. Le vecteur u, réellement calculé véri 
fie (47.6). En tenant compte de l'inégalité || À — ÀE || < 2 || À ||, 
ainsi que des estimations (35.13), (48.6), on obtient 


I Ex lle & (V2+1)rp "1 A Île, 
nel V2npr lu lle 


Rappelons que || uy |, = 1 pour tout £ >1. 

Les itérations inverses sont particulièrement efficaces lorsque la 
matrice À est symétrique. Dans ce cas on peut admettre sans limiter 
la généralité, que la matrice À est tridiagonale; alors, conformément 


à (35.14), 


(48.7) 


I Ex le 2 (BV 2+4) p#t1l Alr, 
[nelle Z V2rp tt un lle. 
Les itérations inverses imposent la résolution multiple des systè- 


mes (47.5). Toutefois, leur solution se trouve assez vite, puisque la 


décomposition de la matrice À —ÂE en produit de facteurs ne se 
fait qu'une seule fois. 

Dans de nombreux cas on parvient à calculer les vecteurs prin- 
cipaux avec une précision exceptionnelle. Supposons qu’à l’aide des 


itérations inverses on ait déjà obtenu un vecteur uw assez exact. 
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Examinons le système 
(A—ÂE) w = u. (48.8) 


En utilisant la décomposition disponible en produit de facteurs de 


la matrice À —-- LE nous pouvons essayer d'appliquer au systè- 
me (48.8) le processus d'amélioration décrit au $ 38. Si on arrive 


à réaliser ce processus, le vecteur w réellement obtenu coïncidera, 
au fond, avec le vecteur principal correctement arrondi. 

Du point de vue des calculs exacts, une telle amélioration coïncide 
avec l'exécution encore d’un pas des itérations inverses sans norma- 
lisations. Pourtant, son exécution pratique est effectuée d'une autre 
façon et permet d'éliminer l'influence de la perturbation équivalente de 
la matrice À sur la précision accessible. Le seul obstacle qui peut se 
présenter lors de la résolution du système (48.8) est lié à la forte crois- 
sance des éléments des calculs intermédiaires. Mais, généralement, 


l'ordre de croissance ne dépasse pas e”? et si À n’est pas trop proche 
de À, le processus d'amélioration est réalisable. 
Portons notre attention sur la circonstance suivante. Si la ma- 


trice réelle À possède des valeurs propres conjuguées À, À, les élé- 


ments diagonaux des matrices À — ÀE, À — ÀE seront complexes. 
Certes, dans l’arithmétique des complexes les itérations inverses 
peuvent être réalisées complètement. Mais ceci est désavantageux 
aussi bien dans le sens de la vitesse du calcul que dans celui du volu- 
me de la mémoire utilisée. 

ÏI1 vaut mieux effectuer les itérations inverses d’une manière un 
peu différente. Calculons les vecteurs à partir de la somme directe L 
des sous-espaces principaux de la matrice À qui correspondent à À, À. 
Examinons la matrice réelle 


B(A)=(A—ŸE) (A—TE)= 42—9 Re\A+ [À|2E. 


Elle possède de petites valeurs propres (A—7) (A —À) et A—DA—À). 
La somme directe de ses sous-espaces principaux qui corres- 
pondent à ces valeurs propres coïncide avec L. C’est pourquoi les 


itérations inverses à matrice B (À) rendent possible l'obtention effi- 
cace des vecteurs de L. 

Pour de nombreux problèmes il est tout à fait suffisant de calculer 
les vecteurs de Z. Mais s’il faut quand même trouver les vecteurs 
principaux de la matrice À, on peut procéder de la façon suivante. 

Le sous-espace ZL est invariant par rapport à À et les valeurs 
propres de l'opérateur À | L induit sur L par l'opérateur À sont 


égales seulement à À et À. Supposons calculée la base orthonormée 
Ui, - --, V1 du sous-espace Z. Dans cette base, l’opérateur À ] L 


16* 
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possède la matrice 
S = V*AV (48.9) 


d'ordre L. Si les coordonnées du vecteur principal de la matrice S 
qui correspond à À sont égales à s1, . .., sy, le vecteur principal z 
de la matrice À, qui correspond à À, sera le suivant 


L 
L 

z= À si. 
ii 


Notons que dans le cas d’une valeur propre simple À la matri- 
ce (48.9) est d'ordre deux. 


EXERCICES 


1. Supposons que le système (47.5) soit résolu de la façon décrite dans ce 
qui précède. Que signifie l'apparition de az nul? ; 

2. Décrire le processus de calcul des itérations inverses de la matrice B (à). 

3. Supposons qu'à l’étape de la résolution du système (48.8) nous avons 


changé À. Quelle est l'influence de ce changement sur la précision réalisable et 
la croissance des éléments lors de la résolution du système ? 


4. Supposons a nous changions À à ALES pas des itérations inverses. 
Quelle en sera l’influence sur le temps de calcul ? 

. Comparer le processus de calcul de l’exercice 4 à l’algorithme QR avec 
décalages. 


6. Soient À la matrice réelle et À l'approximation de la valeur propre com- 
pese À. Examiner les divers modes de réduction du système complexe (47.5) 
"ordre n au système réel d’ordre 2n. 
7. Sous les conditions de l'exercice 6, analyser le processus de calcul des 
itérations inverses. 
8. Comparer entre eux les résultats des exercices 2 et 7. 


$ 49. Estimations à posteriori de la précision 


Dans le cas général, il est impossible de trouver les estimations 
efficaces du problème des valeurs propres, surtout en ce qui concerne 
les vecteurs propres. Cependant, parfois, en partant des valeurs 
propres et des vecteurs propres approchés, on réussit à obtenir des 
estimations à posteriori suffisamment bonnes. 

Soit À une matrice normale. Désignons par À,,. . ., À, ses valeurs 
propres ; Par Z, . + Zn, leS vecteurs propres orthonormés correspon- 
dants. Supposons que le calcul de la valeur propre X et du vecteur 


propre z soit approximatif. Considérons le résidu 
r=(Â—18% 
Si 


z= à ox, (49.1) 
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alors 
n 


= à ( — À) QT} 


et les vecteurs x; étant orthonormés on a 
n 
Irle= à ul. (49.2) 

Désignons par S un ensemble des nombres entiers tel qu'il vérifie 
l'inégalité 

max [4u—À]>a>0, 

iés 
par Z, le sous-espace tendu sur les vecteurs propres zx, tels queiéS. 


Il est clair que la projection pr,z du vecteur z sur ZL est donnée 
par la formule 


pr LT= ÿ it. 
iés 
Si [Ir lg = €, alors (49.2) entraîne 
a 
= D ju Mel> D [M—Tol>a D lu? (49.3) 
1=1 iés iés 


Par conséquent, 


ps 2 
Ipriële= (2 jet?) <e/as. (49.4) 
iCsS 


Pour une matrice À la quantité a, est évaluée facilement d’après 
les valeurs propres approximatives À, et l'estimation à priori de la 
perturbation équivalente de la matrice À. C’est pourquoi l’inégali- 
té (49.4) constitue une estimation efficace à posteriori de la précision 
des vecteurs propres d’une matrice normale. 


L'’estimation (49.4) dépend de la grandeur de la norme du résidu. 
Si on donne le vecteur z, on peut choisir le nombre L}4 de façon que 
le résidu (4 —  R£E)x ait une norme minimale. Il vient 


I(A—uRE)2lÈ=((4—prE)z, (A—URE) 2) = 
= (Az, Az)— (4%, pr£)—(urz, A7) +(urz, Ur?) = 


_(1AZ AZ I(Az, 7)? (AZ, 2) (Az, 2) 
— (Az, Az) — DST + (ur — TEE } (ur — HU ] (z, 2). 
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Il est évident que la valeur minimale de la norme du résidu s’obtient 
avec 


= (49.5) 
(z, x) 
Le second membre de cette inégalité s’appelle quotient de Rayleigh 
et correspond au vecteur z. Si 
I(A—RE) ze = 
alors, toujours, 
II(4—ur£) z|le =E<E. 


Le quotient de Rayleigh est défini pour n'importe quelle matrice, 
mais il a une importance particulière pour une matrice normale. 
Supposons que pour un certain indice s le quotient de Rayleigh ur 
correspondant respecte la condition 


max [A pr| >: >0. 
LEA 
D'après (49.1), (49.5), on trouve 


ÿ Mila l® 


ii 
Ur = El 


> lat 
ii 


Par conséquent, 
ñn n 
HR > LAS > Ailaæl?, 
{mi i=1 
d'où 


lui—url3{al 
(Ur —Às)|@s|? = 2 (Ai —Ur)l@il 2 re 


D'une façon analogue à (49.3), on obtient 
Di lu urllul2<e’?, 
i£s 


[el2>1 x IE —e"?/a 
on a donc, finalement, 


ral <(E)/ (IE 5). (49.6) 


Résumons. Pour a, > e’ le quotient de Rayleigh approche une 
valeur propre isolée de la matrice normale à e'* près. 
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Le calcul des quotients de Rayleigh permet non seulement de 
calculer plus exactement les valeurs propres isolées, mais encore 
d'évaluer leur erreur. Les vecteurs propres isolés d’une matrice 
normale ne peuvent pas, eux, être améliorés d’une façon aussi simple. 
Le quotient de Rayleigh ne permet que d'améliorer légèrement l’esti- 
mation (49.4) en la remplaçant par une estimation plus précise 


Ipririle<e'/af. 


Pour une matrice non normale il est difficile d'obtenir même 
à posteriori des estimations de la précision. Pour mieux comprendre 
l'origine des difficultés, déterminons les termes principaux des cor- 
rections de la solution approchée du problème des valeurs propres, en 
les exprimant à l’aide des quantités connues. 

Supposons que les valeurs propres À,, . .., À, de la matrice À 
soient distinctes deux à deux. Introduisons la notation x;, ..., x, 
et y], - - ., YA pour les vecteurs propres normés des matrices À et A*. 
Il vient 


Ati=hti  A'yi=higr (49.7) 
Si l’on connaît les quantités approchées À, z;, y, 
ju=h+Ah, t=ztAT, Yi=yit+ Au, (49.8) 


où, en général, toutes les corrections sont petites. 
En vertu de l'hypothèse sur les valeurs propres distinctes deux 


à deux, les vecteurs x, . .., x, et ÿ1, . . ., y. seront linéairement 
indépendants. C’est pourquoi zx; et y; peuvent être mis sous la for- 
me d’une somme 


n ñn 
TZ; À hijt;, Yi= à kijÿ y 
Lo J= 


Ici L,;,;, k;, sont proches de l'unité, alors que les autres coefficients 
sont petits. 

Les vecteurs propres se déterminent à un facteur scalaire près. 
Par conséquent, on peut admettre que h;; = k;, = 1. Maintenant 


At; = V'h;x : Ay; = k y ‘ 
i ee jt; Yi À FLE) 
Examinons les résidus 

r=(4—ÎE)z, q=(4*—ÂE)ÿr. 


En portant dans la première équation de (49.7) les valeurs de À,, z; 
de (49.8) et en rejetant les termes de deuxième ordre de petitesse, 
on obtient 


T;, — Au; = — AAx; + AY TE (49.9) 
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Calculons ensuite 
(AAz, y) =(Azu 4*y;) = (Az, A+) = 
= À, (Azi,ys) + (Ati, gp) =) où Rin (Zn, Y3) + (As, 95), (49.10) 


(Az, y) Eu À (Az:, Y;) — hu 2 Rin (Zn, y) . 


Les vecteurs exacts z;, y; sont orthogonaux [1] pour À = j; donc, 
(Tr, Yy) = 0 aux termes de premier ordre de petitesse près. En multi- 
pliant scalairement (49.9) par y; et en tenant compte de (49.10), 
on a 

(ri, y) & Ah y), 


(ra V5) = (ui) (zs y5), ii. 
Il en résulte que 
Az, 
SEL (49.11) 
(ri, y5) 
ui À) (cp v)) | 

Une formule analogue est vraie également pour les coefficients k;, 

déterminant la correction Ay,: 


ke — D (49.12) 
(Ai À;j) (y3 z3) 
La première formule de (49.11) entraîne aux termes de deuxième 
ordre de petitesse près 


hiy = 


M = (Az, EF 
(Zi Yo) | 
Le second membre de cette égalité s'appelle quotient de Royleigh 
généralisé. Il rend encore possible le calcul plus exact des valeurs 
propres isolées. Toutefois, la non-orthogonalité du système de vec- 
teurs propres de la matrice À fait que maintenant il est impossible 
d'obtenir des estimations garanties de précision du type (49.6). 


Si la matrice À est normale, on peut admettre que z,; — Yi 


alors que le système de vecteurs 71, ..., 7, est proche du système 
orthonormé. Dans ce cas, 


IAzIÈZ Del Dre vpP<Irillé. 
Soit hé Sa 
max|A— À; >a>0. 
Ji 
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Des deuxièmes formules de (49.11) on obtient sans peine l'inégalité 
I Az lle < [re llr/as, 


qui coïncide en principe avec (49.4). 

Si la matrice À n’est pas normale, toutes les corrections des vec- 
teurs non normés z;, y, de (49.11), (49.12) sont, au fond, proportion- 
nelles aux quantités 


_ Uzelle | y: lle 
(Zi, yi)l 


Il est d'usage d'appeler le nombre c, coefficient de distorsion de la 
matrice À, qui correspond à la valeur propre À;. Pour les vecteurs 
réels z;, y, ©, = 1/| cos, |, où y, est l’angle entre zx; et y:. Il est 
évident que toujours « > 1. 

Les difficultés d'obtention des estimations à posteriori garanties 
pour une matrice non normale sont liées au fait que ses coefficients 
de distorsion peuvent être aussi grands que l’on veut. C’est pourquoi 
on ne peut utiliser les formules (49.11), (49.12) que lorsqu'on sait 
à priori que tous les facteurs de distorsion ne sont pas très grands. 
Dans ce cas, les formules (49.11), (49.12) non seulement permettent 
de calculer plus exactement les valeurs propres et les vecteurs propres, 
mais encore d'évaluer les termes principaux des erreurs. 


Ci 


EXERCICES 


1. Soit r — (A — LE) v. Démontrer que u est une valeur propre et v un 
vecteur propre de la matrice À — (v, v)-! ru*. 

2. Soient ur le quotient de Rayleigh du vecteur v et r — (4 — RE) v. 
Démontrer que (v, r) = 0. 

3. Sous les conditions de l’exercice 2 démontrer que Ur est une valeur 
propre et v, un vecteur propre de la matrice À — (v, v)-!(rc* + vr*). 

4. Que peut-on dire des perturbations de la matrice À des exercices 1, 3? 

5. Considérons la matrice hermitienne À et soient À,, À, ses valeurs propres 
maximale et minimale. Démontrer que 


(Av, v) ._ (Av, v) 
À = max = , = min 
: 00 (U, v) ” +0 (v, v) 


6. Sous les conditions de l’exercice 5 obtenir les formules exprimant les 
autres valeurs propres à l’aide du quotient de Rayleigh. 
7. Démontrer qu’au lieu de la relation (49.6), en fait, on vérifie l'inégalité 
plus forte 
e’3 
IUR— sl S——— . 
a, zÜE 


8. Evaluer l'influence des erreurs d’arrondi dans le calcul des quotients 
de Rayleigh. Que faut-il entreprendre pour pallier à la perte de précision ? 

9. Soit X la matrice des vecteurs propres de À. Démontrer que Y = X*-! 
est la matrice des vecteurs propres de A*. 

10. Démontrer qu’une matrice est normale si et seulement si tous ses coef- 


ficients de distorsion sont égaux à 1. 
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$ 50. Certaines remarques 


Les investigations réalisées permettent de faire certaines recom- 
mandations pour l'application dés algorithmes examinés à la résolu- 
tion du problème des valeurs propres. 

Supposons que la matrice À ne soit pas hermitienne et que ses 
éléments ne possèdent aucun trait particulier. Dans ce cas, la défi- 
nition de la suite des opérations à effectuer est, au fond, univoque. 

D'abord par transformation de similitude unitaire la matrice À 
est réduite à la matrice quasi triangulaire supérieure. Si nous avons 
à déterminer les vecteurs propres de la matrice À, il faut mémoriser 
certaines transformations de similitude; dans le cas contraire ceci 
n’est pas nécessaire. 

L'étape suivante consiste à appliquer l'algorithme QR à la ma- 
trice quasi triangulaire supérieure. À cette étape on ne calcule que 
les valeurs propres. Les transformations de similitude ne sont pas 
mémorisées. 

En utilisant les valeurs propres calculées effectuons ensuite des 
itérations inverses pour chercher les vecteurs propres. Le problème 
des valeurs propres se résout complètement en définissant les vec- 
teurs propres de la matrice initiale d’après les vecteurs propres de la 
matrice quasi triangulaire. 

Considérons maintenant la matrice hermitienne tridiagonale À. 
Ses valeurs propres peuvent être calculées soit à l’aide de l'algori- 
thme QR, soit par la méthode des bissections. D’après nous, la préfé- 
rence doit aller à la méthode des bissections, surtout dans le cas où 
l’ordre de la matrice est grand et il ne faut pas chercher toutes les 
valeurs propres. Quel que soit le cas, les vecteurs propres d'une matrice 
tridiagonale se déterminent à l’aide des itérations inverses. 

Si une matrice hermitienne À est complète, son problème des 
valeurs propres peut être résolu de deux manières. La première est 
liée à la réduction de la matrice À à la matrice hermitienne tridiago- 
nale unitairement semblable par la résolution du problème des 
valeurs propres pour cette matrice et par le rétablissement des vec- 
teurs propres de la matrice À d’après les vecteurs propres de la matrice 
tridiagonale. La deuxième méthode consiste à effectuer des rotations. 

Dans le cas où il faut calculer seulement les valeurs propres, la 
première méthode est meilleure sur tous les points, sauf l’uniformité 
du schéma de calcul. Mais s’il faut calculer également les vecteurs 
propres, les rotations présentent certains avantages. Il est très 
difficile d'obtenir par itérations inverses les vecteurs propres ortho- 
gonaux, surtout en présence d’une grande accumulation de valeurs 
propres voisines. Les vecteurs propres déterminés à l’aide des rota- 
tions sont presque toujours orthogonaux. 

Les algorithmes passés en revue, à l'exception de la méthode de 
rotations, sont efficaces surtout pour la résolution d’une suite des 
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problèmes spectraux dépendant d’un certain paramètre. Les valeurs 
propres obtenues pour la valeur précédente du paramètre peuvent 
servir de bonne approximation pour les valeurs propres calculées 
d’après la valeur successive du paramètre. La durée totale du calcul 
se trouve alors sensiblement diminuée. 


Tableau 50.1 
Caractéristiques comparatives des algorithmes 


Régime | Nombre Mémoire 
Type de la matrice, algorithme d’'opéra- | Précisivn | supplé- 
calcul tions mentaire 
Arbitraire 
réduction à la matrice quasi trian- 
gulaire fl, (10/3)n3 9,9n 2n 
rétablissement des vecteurs propres fL 2ns 5n 2n 
Quasi triangulaire 
algorithme QR fl 10n3 26,5n n 
itérations inverses fl 3n3 2,4n n° 
Hermitienne complète 
réduite à la matrice tridiagonale fl (4/3)n3 | 18.5n 2n 
rotations (valeurs propres) fl 18n3 48n (] 
rotations (valeurs propres, vecteurs 
propres) fl 36n3 84An n° 
Hermitienne tridiagonale 
bissections fl 10tn° 2,5 0 
itérations inverses fl 52n° 8.3 n° 
algorithme QR fl 13n° 85n 3n 


Les caractéristiques comparatives des algorithmes pour la résolu- 
tion du problème des valeurs propres sont consignées sur le ta- 
bleau 50.1. Il est composé conformément au tableau 34.1 et n'impose 
aucun commentaire spécial. Notons seulement que la précision est 
indiquée pour des valeurs propres et vecteurs propres isolés, alors 
que le nombre d'opérations et la mémoire supplémentaire sont donnés 
pour le problème complet. Toutes les caractéristiques sont obtenues 
sous les hypothèses suivantes: 

Chaque valeur propre établie à l'aide de l'algorithme QR demande 
cing itérations; chaque vecteur propre calculé suivant les itérations 
inverses impose trois itérations; pour réaliser les rotations il faut six 
cycles. 


EXERCICES 


1. Analyser les algorithmes de résolution du problème des valeurs propres 
d’une matrice antihermitienne. 

2. Analyser les algorithmes de résolution du problème des valeurs propres 
d'une matrice unitaire. 

3. Construire l'algorithme de la transformation de similitude unitaire 
d'une matrice hermitienne (2m + 1)-diagonale en une matrice tridiagonale 
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sans utilisation d’une mémoire supplémentaire importante pour conserver les 
résultats des calculs intermédiaires. 

4. Evaluer l'influence des erreurs d’arrondi sur l’algorithme de l’exercice 3. 

5. Construire sur la base des algorithmes étudiés pos les matrices hermi- 
tiennes une méthode numérique de résolution du problème des valeurs propres 
du produit de deux matrices hermitiennes, dont l’une est définie positive. 

6. Evaluer l'influence des erreurs d’arrondi sur l’algorithme de l’exerci- 
ce 5. 

7. Soient À, B des matrices carrées arbitraires. Démontrer qu’il existe 
des matrices unitaires Q, Z telles que les matrices (AZ, QBZ soient des matrices 
triangulaires supérieures. 

8. Construire l’algorithme de la recherche des matrices unitaires R, $, 
telles que RAS soit une matrice quasi triangulaire, et RBS, une matrice trian- 
gulaire supérieure. 

9. Evaluer l'influence des erreurs d’arrondi sur l'algorithme de l’exer- 
cice 8. 


ANNEXE I 


À PROPOS DE LA DISTRIBUTION 
DES ERREURS D’ARRONDI 


Nous avons comparé la précision des méthodes numériques de 
l'algèbre linéaire d’après les majorations des normes des perturbations 
équivalentes. Il est donc très attrayant, pour se faire une idée totale 
de la distribution des erreurs d’arrondi, de considérer les erreurs iso- 
lées comme des quantités indépendantes aléatoires. Attrayant, parce 
qu'une telle hypothèse conduit à des estimations probabilistes meil- 
leures que les estimations majorantes. Pourtant, il est tout aussi 
attrayant de considérer les erreurs isolées comme des quantités 
dépendantes aléatoires, du fait qu’on peut supposer que la connaissan- 
ce du caractère de la dépendance conduira également à de meilleures 
estimations. Mais alors, comment considérer ces méthodes et com- 
ment elles sont en réalité? 

Dans le cas général, la réponse à cette question est liée à des 
recherches numériques théoriques qui ne font pas l’objet de notre 
ouvrage. Nous exposerons seulement ici quelques faits parmi les plus 
simples. Même ces faits permettront de montrer l'intérêt que pré- 
sentent les propriétés des erreurs d’arrondi et de justifier par des 
arguments de poids le choix d’une hypothèse vraisemblable de la 
distribution commune de l’ensemble tout entier des erreurs d’arrondi 
dans le processus de calcul. Le lecteur désireux d'approfondir la 
connaissance de l'aspect technique de la question pourra consulter 
la monographie [3] (en russe). 

L'étude des propriétés probabilistes des erreurs d’arrondi est 
impossible sans apporter dans leur comportement un certain élément 
de hasard. Cet hasard est souvent associé à la résolution multiple 
d'un même problème sur des ordinateurs différents, à la résolution 
du problème au nombre aléatoire de chiffres exacts dans les calculs 
intermédiaires et même lors de l’arrondissement aléatoire des résul- 
tats de l’exécution des opérations arithmétiques. Pourtant, dans les 
conditions des calculs réels, l’apport du hasard ne peut se faire, 
généralement, que d’une seule façon. 

Sur tous les ordinateurs modernes, l'arrondissement est une opé- 
ration déterministe. Par conséquent, pendant l'exécution d’une opé- 
ration arithmétique, l’erreur d’arrondi est bien définie par les valeurs 
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des arguments de l'opération elle-même. C’est pourquoi, lorsque les 
données d'entrée du problème et l’algorithme de sa résolution sont 
fixés, l’ensemble tout entier des erreurs d’arrondi est bien défini 
et il n'apparaît aucun hasard dans le comportement des erreurs elles- 
mêmes. Si l'algorithme de calcul n’est pas lié aux processus aléatoires 
qui ne dépendent pas de lui, l’unique source de hasard dans les 
erreurs d’'arrondi ne peut être que le hasard des données d'entrée du 
problème. 

Nous étudierons la distribution des erreurs d'’arrondi en les 
envisageant comme fonctions des données d'entrée aléatoires et en 
supposant que tous les calculs se font en virgule flottante à arrondisse- 
ment correct. Puisque maintenant nous ne nous intéressons qu'à 
l'aspect qualitatif de la distribution, nous allons nous borner aux 
recherches asymptotiques pour t — oo. 

L’exploration de la dépendance des erreurs d’arrondi par rapport 
aux données d'entrée présente de nombreuses difficultés à surmonter ; 
la cause de leur apparition est rendue déjà évidente par l'exemple 
suivant. Mettons la quantité x sous la forme ap°, où a est sa mantisse 
et b, l’ordre. On voit sans peine que l'égalité 


fl(z)=z+p'F(z)e(x, t) 
est vérifiée. Ici 
F(z)=p", |e(z, t)|< 1/2. 


La fonction F (x) ne dépend pas de t. Elle est constante par morceaux 
et présente des discontinuités aux points z = p° pour s nombres 
entiers. Quant à à la fonction e (x, t), elle est linéaire par morceaux de 
période p”"; par conséquent, ses discontinuités se succèdent avec la 
même période. Il n’y a donc aucune raison de s’attendre que, dans le 
cas général, les erreurs d’arrondi soient des fonctions lisses quelcon- 
ques des données d’entrée. Bien plus: il est presque évident que pour 
t—> oo, l’ensemble des discontinuités des erreurs d'’arrondi sera 
dense partout sur l’ensemble des données d’entrée. C’est cette circons- 
tance précisément qui détermine la complexité de la recherche. 

Les erreurs d’arrondi ne sont pas très commodes pour l'étude. 
Au lieu des erreurs d’arrondi nous examinerons les quantités du type 
e (x, t) que nous appellerons erreurs d’arrondi normalisées. 

Si les données d’entrée sont des quantités aléatoires, l’erreur nor- 
malisée de l’exécution d’une opération arithmétique sera une quantité 
aléatoire distribuée d’une certaine façon sur le demi-segment 
(—1/2, +1/2]. L'un des problèmes les plus importants consiste à 
comprendre quelles propriétés possédera la distribution asymptotique 
des erreurs d’arrondi normalisées. 

Tout processus de calcul débute par l'introduction des données 
d'entrée dans l'ordinateur. Les erreurs d’arrondi qui apparaissent 
alors sont décrites par le 
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Théorème 1. Supposons que la quantité aléatoire introduite 
dans l'ordinateur possède une densité continue de distribution commune. 
Alors, indépendamment de l'allure de la densité de distribution à l'en- 
trée, l'erreur d'arrondi se distribue asymptotiquement et régulièrement 
sur le demi-segment (—1/2, +1/2]. 

Les pas ultérieurs du processus sont liés au calcul de différentes 
fonctions d’une ou de plusieurs quantités aléatoires introduites dans 
l'ordinateur. On vérifie le 


Théorème 2. Soient des quantités aléatoires à densité continue 
de distribution commune introduites dans l'ordinateur. Supposons que 
les quantités introduites soient des arguments d'une certaine fonction 
lisse, dont presque partout ne serait-ce qu'une des coordonnées du gra- 
dient prend une valeur irrationnelle. Alors, indépendamment de l'allure 
de la densité de distribution des données d'entrée, lors du calcul de cette 
fonction la distribution régulière de l'erreur d'arrondi normalisée sur 
le demi-segment (—1;2, +1/2] est asymptotique. 

Les conditions de ce théorème sont vérifiées par les fonctions 
dont le gradient coïncide en tout domaine fini pas plus qu'en un 
nombre de points fini. On rapporte, évidemment, à ces derniers 
la quantité inverse, la multiplication et la division, les fonctions 
exponentielle et logarithmique, toutes les fonctions trigonométri- 
ques et bien d’autres encore. Pour ces fonctions, l’erreur d'arrondi 
normalisée se distribue, lors de leur calcul, suivant le théorème 2. 
I1 importe de souligner que le caractère asymptotique de la distri- 
bution de l'erreur ne dépend pas de l'erreur des données d'’entrée, 
de la base du système de numération et même, dans une certaine 
mesure, de la fonction calculée. Cette propriété des erreurs est l’une 
des plus remarquables. 

Les facteurs qui viennent d’être recensés n'influent pas sur la 
forme de la distribution asymptotique, mais influent, certes, sur 
l'allure de la convergence de la distribution réelle vers la distribu- 
tion asymptotique. On peut comprendre certaines particularités si 
l’on considère les erreurs du calcul des fonctions qui ne satisfont 
pas aux conditions du théorème 2. 

L'exemple le plus intéressant est fourni par l'addition. La 
distribution asymptotique de ses erreurs est décrite par le 


Théorème 3. Soient deux quantités aléatoires de densité 
continue de distribution commune introduites dans un ordinateur. 
Supposons que dans tout le domaine de détermination la différence 
des ordres de ces quantités soit constante et égale à r > 0. À lors, indé- 
pendamment de l'allure de la densité de distribution des données d'entrée, 
lors du calcul de la somme des grandeurs introduites discrètement l'erreur 
d’arrondi normalisée se distribue suivant le demi-segment (—1/2, +1/2] 
et acquiert sur ce demi-segment des valeurs asymptotiquement équipro- 
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bables de la forme ip” pour des i entiers vérifiant les inégalités —p"/2 < 
<i< +p'/2. 

La distribution asymptotique de l'erreur d’arrondi normalisée 
sera également discrète lors du calcul de la combinaison linéaire 
de n'importe quel nombre de quantités aléatoires introduites dans 
l'ordinateur si seulement tous les coefficients de la combinaison 
linéaire sont des nombres rationnels. Pourtant, dans le cas général, 
il est déjà plus difficile de décrire l’ensemble des valeurs admissibles 
de l'erreur et la probabilité de leur apparition. 

Le dernier théorème entraîne un corollaire intéressant qui montre 
la différence entre diverses bases des systèmes de numération du 
point de vue des erreurs d’arrondi. Plus précisément, dans l'addition 
de deux nombres l'espérance mathématique de l'erreur d’'arrondi norma- 
lisée est nulle quelle que soit la base impaire et est égale à p"/2 pour 
une base paire quelconque. 

Ce fait impose certaines explications. En toute rigueur, l’affir- 
mation du théorème 3 n’est vraie que pour ceux des arrondissements 
corrects, où l’erreur d’arrondi est bien définie par la « queue » 
de la mantisse dépassant t rangs. Et il ne s’agit pas là seulement 
du fait qu’on considère justement un arrondissement correct. On peut 
montrer que si seulement l'erreur d'arrondi est bien définie par la 
« queue », dans l'addition de deux nombres l’espérance mathémati- 
que de l'erreur diffère asymptotiquement de zéro aussi quels que 
soient d’autres modes d'arrondissement. 

Ces propriétés des systèmes de numération à base paire s’expli- 
quent finalement par l’impossibilité de construire l’arrondissement 
fondé sur l’analyse de la seule « queue » de la mantisse de façon 
à assurer la compensation asymptotique des erreurs entre elles. 
Pour de tels systèmes de numération l’une des meilleures méthodes 
d'arrondissement est la méthode classique ; or, là aussi Ari 
d’arrondi de la mantisse à « queue » aussi grande que (1/2) p-! 
peut être compensée. 

Nous avons déjà noté au chapitre I que dans un système à base 
paire l’arrondissement correct peut être réalisé d’une façon ambiguë. 
C'est le fait de l’ambiguité de l'arrondissement des nombres dont 
les mantisses possèdent une «4 queue » égale à (1/2) pt. Pour parer 
à la propagation systématique, il faut que la mantisse égale à 
(1/2) p"t soit'arrondie avec la même probabilité aussi bien par excès 
que par défaut. Le capteur de l’arrondissement aléatoire doit être 
lié alors à l’un quelconque des derniers rangs de la mantisse pour 
pouvoir obtenir lors de la répétition du calcul deux résultats identi- 
ques. Par exemple, la mantisse à queue (1/2) p- ‘ peut être arrondie 
par excès si son t-ième rang prend une valeur paire, et par défaut, 
s’il prend une valeur impaire. Cette modification de l'arrondissement 
est commode surtout pour travailler sur une calculatrice binaire, 
puisqu'elle n’impose pas d’addition supplémentaire. 


À PROPOS DE LA DISTRIBUTION DES ERREURS D'ARRONDI 257 


La plupart des ordinateurs modernes travaillent en système 
binaire. La réalisation de l’arrondissement correct sur ces machines 
présente des difficultés et il n’y a pas tant d'ordinateurs dans les- 
quels ces difficultés sont surmontées. La vérification expérimentale 
a montré presque dans toutes les calculatrices binaires l’existence 
dans les erreurs d’arrondi du décalage systématique. Pour certaines 
d’entre elles, le décalage est de plusieurs fois supérieur à la valeur 
maximale de l'erreur d’arrondi correcte. Sous ce rapport, les ordi- 
nateurs qui fonctionnent en système ternaire condensé se distinguent 
avantageusement. Sur ces machines le décalage des erreurs d’arrondi 
n'existe pas. 

Si la réalisation de l’arrondissement est incorrecte. dans le 


calcul des fonctions similaires x + y et x + V2y la distribution 
asymptotique des erreurs normalisées est en fait complètement 
différente. Dans le premier cas, la distribution est discrète et produit 
un décalage perceptible: dans le deuxième, elle est régulière et 
n’est pas propagée. Sur un ordinateur à arrondissement incorrect, 
il est utile de recourir surtout aux opérations d’accumulation. 
Non seulement on baisse ainsi le niveau général des erreurs, mais 
dans de nombreux cas on parvient encore à éliminer le décalage 
systématique. 

Nous n'avons examiné que les premiers pas du processus de 
calcul liés à l'introduction des données d'entrée dans l’ordinateur 
et au calcul de différentes fonctions des données introduites. Pour 
le faire, nous n'avons exploré les erreurs qu’à l’aide de l'algorithme 
de calcul sans recourir aux hypothèses supplémentaires sur le com- 
portement des erreurs elles-mêmes. Nous pouvons poursuivre encore 
des recherches analogues. Cependant, il faut constater que les diffi- 
cultés techniques des démonstrations deviennent plus grandes à une 
cadence beaucoup plus rapide que celle de l’obtention de nouveaux 
résultats. 

Sans décrire ces recherches, notons que dès à présent on peut 
émettre certaines idées sur les résultats de l’étude ultérieure du 
processus de calcul. 

L'une des plus importantes découvertes dans les erreurs d’arrondi 
normalisées est l'indépendance de la forme de la distribution asymp- 
totique par rapport aux données d'entrée. Supposons que la densité 
de distribution commune des données d'entrée soit continue. Géné- 
ralement, dans les calculs exacts, tout ensemble des résultats inter- 
médiaires aura également une densité continue de distribution 
commune. Par conséquent, l’hypothèse semble vraisemblable d’après 
laquelle à toutes les étapes presque tous les résultats des calculs 
approchés peuvent être interprétés comme produits par l'introduction 
dans l'ordinateur de certaines quantités à densité continue de distri- 
bution commune. Dans ce cas, dans les calculs ultérieurs, le compor- 
tement des erreurs d’arrondi normalisées sera encore conforme aux 
17—0484 
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théorèmes 1, 2. Il semble aussi que l'indépendance de la forme 
de la distribution asymptotique des erreurs par rapport aux données 
d'entrée doit entraîner l'indépendance des erreurs d’arrondi en tant 
que quantités aléatoires. Il est seulement difficile de s'attendre que 
dans leur ensemble les erreurs seront pratiquement indépandantes. 

Ainsi, les investigations réalisées et les arguments exposés 
montrent que pour évaluer l'influence totale des erreurs d'arrondi 
sur des calculs très nombreux, nous pouvons utiliser probablement l’ 


H ypothèse. Toutes les erreurs d'arrondi normalisées d'un 
processus de calcul en virgule flottante sont des quantités aléatoires 
deux à deux indépendantes, dont la distribution ne dépend pas des 
données d'entrée et des résultats des calculs intermédiaires. Leur distri- 
bution est discrète sur le demi-segment (—1/2, +1/2] pour les opéra- 
tions d'addition et de soustraction, et uniforme pour la plupart des 
autres opérations. À l'exception de certains cas, on peut admettre que 
l'espérance mathématique des erreurs d'arrondi normalisées est nulle 
et que la dispersion ne dépasse pas 1/12. 

Dans la pratique cette hypothèse doit être appliquée avec précau- 
tion en ce qui concerne les valeurs supposées de l'espérance mathé- 
matique et de la dispersion, associées seulement aux particularités 
de la distribution des erreurs normalisées dans les opérations du 
type addition. L'hypothèse est confirmée par plusieurs recherches 
théoriques dans le domaine des transformations linéaires des vec- 
teurs, de la décomposition des matrices en produit de facteurs, 
des processus itératifs de l’algèbre linéaire, du calcul des intégrales 
définies. Pour se renseigner sur ces recherches, on n’a qu'à consulter 
la monographie [3] et l'index bibliographique [8]. 

Examinons maintenant les exemples de l'utilisation de l’hypo- 
thèse énoncée pour déduire certaines estimations probabilistes 
associées aux erreurs d’arrondi. 

L'élément le plus important de l'étude de la stabilité des métho- 
des numériques de l'algèbre linéaire a été l'obtention des majora- 
tions des normes euclidiennes des perturbations équivalentes M lors 
de la décomposition de la matrice À en produit de facteurs. D'après 
la formule (34.1), ces estimations sont les suivantes: 


Me f (2) pt 11 A Ile. 
Pour toutes les recherches probabilistes, les estimations de la forme 
(MIIMIÉ)" <@ (2) pl A Ie, 


où M|IIM]IIË est l'espérance mathématique de || M |, ont une 
valeur analogue. Comme le montre le tableau 34.1, d’après l’ordre 
de leur dépendance de 7, les valeurs des fonctions f (7) varient 
pour diverses méthodes de n° à n!. Mais, pour les mêmes régimes 
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de calcul, les valeurs de œ (nr) s'échelonnent déjà seulement de 
n° à n°, 

Les fonctions œ (n) se calculent d'après les mêmes schémas que 
les fonctions f (n), à l’exception des changements de même type 
liés à l'analyse probabiliste. C’est pourquoi nous nous bornerons 
ici à l’examen sommaire de certaines transformations unilatérales. 


Supposons que conformément au $ 19, le vecteur z subit la suite 
des transformations à matrices de rotation données T;,,; ... 


TR ici D'après l'hypothèse sur la distribution des erreurs, on a 


19 T2 pt ne 
(MIE) T7 Sr (D (Gi, +2) 
Rk=0 


Il est clair que pour les indices cycliques la suite des matrices 
de rotation vérifie les inégalités 


(MIE 1E)"2 << 7/2 nt2pt#t|Iz Ile. 


Cela signifie que pour toutes les décompositions en produit de 
facteurs examinées dans ce qui précède à l’aide des transformations 
de rotation, les fonctions q (n}) ne dépassent pas en ordre n!/°. L’exem- 
ple du $ 22 montre l’inaméliorabilité des estimations pour œ (n). 

Supposons ensuite que conformément aux notations du $ 21, 
le vecteur z subit la suite des transformations aux matrices de Hou- 
seholder données Ü,, ..., U,_,. Par analogie avec la formule (21.3), 
on aura 


(MITIÈ) LC ZE Mix lt), 


où 7 est la perturbation équivalente qui apparaît au À + 1-ième pas. 
Les estimations probabilistes des erreurs d’un pas conduisent mein- 
tenant à l'inégalité 
2 9 
MIT IE) PS = nt/2p7 441 [12 ||. 
(MIT IE) < 75" P IEALE 


Là encore @ (7) ne dépasse pas en ordre n#!/* et cette estimatior 
ne peut pas être améliorée. 

Si dans les transformations de Householder on n'utilise pas 
l'accumulation des produits scalaires, l’analyse des erreurs corres- 
pondantes montre que la fonction f (7) acquiert des valeurs d'ordre n°. 
Or, pour la fonction  (n) l'analyse probabiliste donne des estima- 
tions d'ordre » ou (n log, n)'/° suivant celui des modes de somma- 
tion décrits au $ 6 qu’on utilise pour le calcul des produits scalaires. 
Ceci conduit peut-être à la conclusion que dans les calculs réels l'effet 
de l'application des opérations d'accumulation des produits scalaires 
ne doit pas être aussi grand dans le sens de la précision que lors de l'ob- 
ltention des estimations garanties. Cette conclusion est confirmée par 
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l'analyse des algorithmes les plus différents prévoyant le calcul des 
produits scalaires. 

L'analyse probabiliste des erreurs d’arrondi dans les transfor- 
mations de Gauss est fondée sur la formule (24.7) qui entraîne 
immédiatement que 


(MIRE) = CD MI pau IE). 


Là encore, pour la fonction (nr), nous obtenons une estimation 
inaméliorable d'ordre n!/°. 

Pour les autres types des décompositions, les fonctions o (n) 
et jf (n) sont de même ordre n°. Ceci s’explique par le fait que dans 
ces décompositions chaque élément des matrices des perturbations 
équivalentes n'est déterminé que par une erreur d’arrondi élémen- 
taire. C’est pourquoi les estimations probabilistes des perturbations 
équivalentes ne peuvent pas être sensiblement meilleures que les 
majorations. 

Les estimations probabilistes permettent de rendre plus exactes 
les conclusions sur la relation entre les différentes méthodes de 
décomposition d’une matrice en produit de facteurs. Si une disper- 
sion relativement forte des valeurs de la fonction f (7) permettait 
encore de donner la préférence à l’une des méthodes, une faible 
dispersion des valeurs de œ@ (7) témoigne du fait que 

Du point de vue de la stabilité aux erreurs d'arrondi, les méthodes 
directes de la décomposition d'une matrice en produit de facteurs ne 
présentent pas de différence de principe. 

Certes, cette conclusion se rapporte également dans la pleine 
mesure aux méthodes directes de résolution des systèmes d'équations 
algébriques linéaires. D'après (36.15), lors de la résolution d’un 
système, l’estimation majorante de l'erreur se caleule d’après la 
formule 

HE Lavf(n) prit. 
L'analyse probabiliste conduit à la relation 


Iz—z li \172 + 
(M) <2memp tt 


Une conclusion analogue peut être tirée également pour d’autres 
méthodes numériques quelles qu’elles soient, basées sur les décom- 
positions directes d'une matrice en produit de facteurs. 

Ici s’achève notre initiation sommaire à l'analyse probabiliste. 
Nous espérons que cette description des  eiboices de la distribution 
des erreurs d’arrondi permettra de s'orienter correctement dans 
la lecture des ouvrages correspondants. Par ailleurs, elle ouvre 
devant le lecteur de larges possibilités d’une étude plus profonde 
des processus de calcul. 
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RÉSOLUTION DES PROBLÈMES 
D’ALGÈBRE LINÉAIRE DE GRANDE TAILLE 


En parlant de résolution des problèmes d’algèbre linéaire sur 
les ordinateurs, nous avons supposé de façon tacite que les données 
d'entrée et les résultats des calculs intermédiaires sont rangés dans 
la mémoire opérationnelle. Cependant, pour plusieurs raisons, la 
conservation simultanée de toute l'information dans la mémoire 
opérationnelle est souvent impossible ou désavantageuse. Cette 
situation peut avoir lieu aussi bien lorsqu'on travaille sur de petites 
machines que sur de grands ordinateurs multiprogrammes. 

Dans ce cas il faut faire appel à une mémoire externe et chercher 
la solution de plusieurs nouvelles questions relatives à l’organisa- 
tion de l'échange d’information entre la mémoire opérationnelle 
et la mémoire externe, la modification mathématique des méthodes, 
la diminution des volumes des résultats intermédiaires, etc. Dans 
ce qui suit nous allons examiner certaines de ces questions. 

Partout par problèmes de grande taille nous allons entendre 
les problèmes d’algèbre linéaire dont la résolution par les méthodes 
générales rend nécessaire la mémorisation d'une information beau- 
coup plus grande que ne peut contenir la mémoire principale dis- 
ponible. La résolution des problèmes de grande taille peut être 
rendue plus efficace par l'application des méthodes variées. Nous 
allons les illustrer sur l’exemple de la résolution par des méthodes 
directes des systèmes d'équations dont les matrices appartiennent 
à l’un des types suivants: complète sans aucun trait particulier ; 
de Tieplitz; creuse à disposition arbitraire des éléments nuls. 

Supposons que la matrice À du système d’équations soit une 
matrice complète dont les éléments ne possèdent aucun trait parti- 
culier bien marqué. Au fond, ce système doit être résolu par l’une 
des méthodes examinées dans ce qui précède, en les modifiant de 
façon que l'échange d’information entre la mémoire principale et 
la mémoire externe soit le plus efficace. 

Supposons que la mémoire externe de la calculatrice soit à tam- 
bour magnétique ou à disque magnétique. Désignons par t et v 
le temps d'attente moyen et le temps d’accès d’un code. Alors, 
le temps T nécessaire pour l'échange de NV codes entre les mémoires 
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principale et externe sera déterminé par la formule T = t + Mw. 
Admettons que pour organiser les échanges on a prévu une partie 
de mémoire externe égale à m mots, sans compter la mémoire prévue 
pour la conservation du programme. 

Une caractéristique importante du schéma de calcul d’une 
méthode est le temps total absorbé par l'échange d’information. 
La réduction de ce temps est d’une très grande importance pour les 
ordinateurs aussi bien à commande par monoprogramme qu’à 
commande par multiprogramme. ÎÏl est clair que le temps d'échange 
est d'autant plus petit que l’utilisation de la partie de la mémoire 
principale prévue pour les échanges est meilleure. Mais même dans 
le cas de la meilleure utilisation, les temps seront tout à fait diffé- 
rents suivant le schéma de calcul retenu. 

Prenons, par exemple, comme base du processus de résolution 
du système la méthode de Jordan [2]. Supposons que l’ordre du 
système vérifie l'inégalité rz < m/2. Appelons de la mémoire externe 
les deux premières colonnes de la matrice complète et transformons 
les coefficients de la deuxième colonne de la matrice complète 
d'après les formules 


, 1 , n! 
Zj,ith = iii, jths GjirRk = A; ith— pilii Gi, th 


pour tout j + à avec i = 1, À — 1. Rangeons la deuxième colonne 
transformée à son ancienne place dans la mémoire externe, pour 
mettre à son emplacement dans la mémoire principale la troisième 
colonne. Transformons cette colonne également d’après les formules 
données pour i = 14, k — 2. Une fois que toutes les colonnes seront 
transformées (4 — 1, ..., n), nous n’aurons plus besoin de la pre- 
mière colonne. Dans les transformations ultérieures (i = 2, ..., n}, 
le rôle de la première colonne sera rempli successivement par la 
deuxième, troisième, etc., colonne. Après x pas, la matrice du 
système sera réduite à la matrice unité, alors que la solution s’ob- 
tiendra à l’emplacement des colonnes des termes libres. 

On voit tout de suite les défauts de ce système. Pour r << m/2, 
la mémoire principale n'est pas utilisée complètement et pour 
n > m/2, il est impossible de résoudre les systèmes par ce procédé. 
Mais pour rz — m/2, le schéma semble impeccable, puisque le nombre 
d'opérations arithmétiques n’augmente pas et aucun échange ne se 
fait entre la mémoire principale et la mémoire externe. Il n’est pas 
difficile de calculer que dans ce cas le temps d'échange au terme 
principal près sera déterminé par la formule 


TH = nr + niv. 


Supposons ensuite que la matrice du système est partitionnée 
en blocs À;; d'ordre p, où x = pr. Admettons que p = (m:3)"*, 
c'est-à-dire qu'on peut ranger simultanément dans la mémoire 
principale trois sous-matrices. Comme base du nouveau schéma de 
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calcul prenons le premier schéma en remplaçant dans la formule les 
éléments a;y par les sous-matrices À4,;. Bien qu'il soit impossible 
de ranger simultanément dans la mémoire opérationnelle deux 
colonnes de blocs entières, rien n'empêche d'exécuter successivement 
les opérations sur ces colonnes. 

Comme nous l'avons déjà dit, le premier schéma est le plus 
efficace pour r — m/2. Prenons donc le deuxième schéma avec 
m = 2n. Des calculs bien simples montrent que dans le cas du deuxiè- 
me schéma le temps d'échange total sera 


TA = 2,8n3/°t + 1,8n$/°. 


En comparant 7‘? et T'*” nous tirons la conclusion que pour 
le deuxième schéma le temps d'échange d’information entre la 
mémoire opérationnelle et la mémoire externe est environ n#!/°/2 
fois plus petit. Un gain aussi sensible est enregistré seulement grâce 
à une meilleure organisation. L'exemple considéré montre immé- 
diatement que des échanges irréfléchis entre la mémoire principale 
et la mémoire externe peuvent entraîner de grands frais improductifs 
de temps machine. 

Il est évident que pour résoudre un système quelconque par la 
méthode des sous-matrices avec utilisation d'une mémoire externe 
il faut plus de temps que pour résoudre ce même système en rangeant 
la matrice toute entière dans la mémoire principale. L'augmentation 
du temps sera due aussi bien au nouveau schéma de calcul, qu’au 
travail avec mémoire externe, et ceci d'autant plus que la partie 
de la mémoire principale affectée à l'échange d’information est 
plus petite. Pour évaluer la perte de temps, introduisons le coeffi- 
cient des pertes calculé d’après la formule 


P=(Tr+T). 


Ici, T, est le temps absorbé par l’exécution des opérations arithmé- 
tiques de la méthode des sous-matrices; T le temps absorbé par 
l'échange d'information entre la mémoire principale et la mémoire 
externe ; Z', le temps absorbé par l'exécution des opérations arithmé- 
tiques suivant la méthode usuelle. 

L'étude du coefficient des pertes révèle un fait extraordinaire. 
Pour des machines moyennes du type B3CM-4, déjà pour m > 300 
et z > 200 il est voisin de 2. Par conséquent, en utilisant la mémoire 
externe pour la conservation de la matrice et rien que 300 cellules 
de mémoire principale pour l’organisation des échanges, on peut 
résoudre sur de tels ordinateurs des problèmes de grande taille. 
À cet effet, nous ne mettrons que 2 fois plus de temps par rapport 
à celui nécessaire dans le cas où toute la matrice serait rangée dans 
la mémoire principale. 

Des analogues à matrice partitionnée sont construits presque 
pour toutes les méthodes numériques examinées dans cet ouvrage. 
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On les applique avec succès pour résoudre ceux des problèmes d’al- 
gèbre linéaire, dont les matrices sont assez grandes et ne présentent 
aucun caractère particulier. D’autres principes des échanges d'’infor- 
mation entre la mémoire principale et la mémoire externe, ainsi 
que d’autres modifications des schémas de calcul peuvent, certaine- 
ment, s'avérer efficaces pour de tels problèmes. Il importe seulement 
d’assurer la stabilité de la méthode numérique et le voisinage relatif 
du coefficient des pertes à l'unité. 

Un choix convenable de la méthode numérique ne rend pas 
toujours possible la prise en considération de tous les traits parti- 
culiers d’un problème, surtout dans le cas des problèmes à matrices 
de grande taille. 

Examinons d’abord à titre d'exemple la résolution des systèmes 
d'équations aux matrices dites de Tieplitz. Soit la matrice À parti- 
tionnée en blocs À;; d'ordre p, et là encore, nr — pr. La matrice À 
s'appelle matrice de Tieplitz par blocs si ÀA;; = A, pour i — j — 
— $ — t. Les systèmes comportant de telles matrices sont fournis 
par divers problèmes d'acoustique, de statistique, d’électrodynami- 
que, etc. Ils se présentent, notamment, dans la résolution des équa- 
tions intégrales de Fredholm à noyaux dépendants de la distance 
entre les points par réduction aux systèmes algébriques. Il importe 
de souligner que ces systèmes peuvent compter plusieurs centaines 
et même milliers d'équations. 

Une matrice de Tieplitz par blocs a un caractère spécifique bien 
marqué et peut être donnée par un ensemble des nombres d’une 
grandeur de 2n°/r, et non pas de n°, comme dans le cas d’une matrice 
complète. Si le système possédant une telle matrice est résolu à l’aide 
de l’une quelconque des variantes de la méthode de Jordan, dès 
les premières transformations l'allure spéciale de la matrice sera 
compromise. 

Les méthodes numériques de résolution des systèmes aux matrices 
de Tieplitz efficaces suivant la vitesse et le volume utilisé de la 
mémoire sont d'apparition relativement récente. 

Soient les matrices carrées @_,41, . - -, Æps - + +, 4-1 d'ordre p. 
Examinons les matrices de Tieplitz 


do &: Go CRC dr 
(4 2 do (1 Le p_. 
Th Œp+y ptz do 


et désignons par &, et B, respectivement la première et la dernière 
colonnes des sous-matrices de la matrice A;%!. 


RÉSOLUTION DES PROBLÈMES DE GRANDE TAILLE 


265- 
Soient LL D 
@o, k Bo. k 
Œi,R Bi, k 
ŒR = ë , Ba — . e 
TR. h= Pa, à 


Il est clair que pour À = 0, ces colonnes coïncident et ne contiennent 


qu'une sous-matrice a;}. Supposons qu'on connaisse œn-1 et Py-1- 
Cherchons a, et B, sous la forme 


RON M0 
Œj, h-1 Bo. »-1 
ar = : Ur + Vr, 
Œp-1, k-1 Br-2, 1 
0 Pn-1, n-1_ 
Qo,k41 7 0 
Œi, h-1 Bo, x-1 
Bx = Ri+ : Sy 
Ah, R-1 Pn-2, n-1 
0 Pr-1, r-1— 
où U,, Vr, Rn, Sr Sont certaines des matrices d'ordre p. Puisque 
æx et Br sont les colonnes des sous-matrices de la matrice A;!, it 
vient 
— p- —0- 
0 0 
Az = De AB = 
:20;.) E 


Ici E est la matrice unité d'ordre p. En introduisant les notations. 
| 1 


= N _, NN 
Fin = ai diAt+r, R=1) For — ed Gifs, R-1) 
th th 
on obtient des dernières relations que 


Ur+FaVr=E, | Rr+ FonSr = 0, | 


FixUr + Vr=0, FirRrs+Si=E, 
et puis 


Ur =(E— FE), 


Vr=—Fr(E—PFxFu)t, 
Ri= — FE —FinFan), 


SR=(E — FirFar)*. 
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De la sorte, pour les matrices 45°, ..., A;l;, on peut déter- 
miner de proche en proche les premières et les dernières colonnes 
des sous-matrices sans calculer les éléments des autres colonnes. 

Supposons maintenant qu'on résout le système d'équations 
algébriques linéaires Az — b à matrice de Tieplitz par blocs À — 
—= AÀ,_,. Mettons les vecteurs x, b sous la forme 


T1 b, 
A : ’ b — 
_Tr1_ _b,-1_ 


et examinons les systèmes tronqués 


AR ES dp, 
où 
Yo, r. bo 
U1, À b, 
Ur = , =] . 
Ur, k_ Dr _ 


Tous les vecteurs entre crochets sont de même ordre p. Soit 


Yo,r | | Yon | | Zor 
_- + |. 
Ur, R Yh-1, R-1 Zh=1, R 
_YnRn D 1 ©  [ [_Zr.8 
En portant cette expression dans l'équation 
ArYr = dx 


et en tenant compte que le vecteur y,., vérifie l'équation 
Apaÿn-1 = AR 


tirons la conclusion que le vecteur de la correction z, aux éléments 
Zo. kr + + +» Zr, R St la solution du système A,;z, = f,, où 


0 
. —1 
L 1 

Îr = ; fnr = dr — : ŒiYI+R, h—1° 
0 Im—h 
Rhk_ 


Le vecteur z, est une combinaison linéaire des dernières colonnes 
de la matrice 4;?, les coordonnées du vecteur f;, sont les coefficients 
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de cette combinaison. Par conséquent, pour calculer par récurrence 
les vecteurs y, il suffit de calculer par récurrence la dernière colonne 
des sous-matrices des matrices A;!. Remarquons que le vecteur x 
coïncide avec y,._,, et le vecteur y, = a;'b:. 

Cette méthode de résolution des systèmes à matrices de Tieplitz 
par blocs est très efficace par rapport aux autres méthodes directes. 
Pour l’appliquer dans le cas de grands r, il faut exécuter seulement 
environ n°/r opérations arithmétiques contenues dans ces conditions 
dans 4n°/r mots de mémoire. Si les sous-matrices de la matrice sont 
liées entre elles par les relations a_, — la;u pour certaines matrices 
symétriques des permutations de !, u, alors, le volume des calculs 
et le volume nécessaire de la mémoire peut être réduit de — 2 fois. 

Examinons un cas particulier de la matrice de Tieplitz par 
blocs. La matrice est dite circulante, si ses sous-matrices sont liées 
par les relations a_; = a,-, pour tout i. Pour résoudre les systèmes 
d'équations possédant de telles matrices, il existe une méthode 
plus efficace. À sa base repose le fait que toute matrice circulante 
est unitairement semblable à une matrice diagonale par blocs. De 
plus, la matrice de similitude ne dépend pas des éléments de la 
matrice initiale, alors que la matrice diagonale par blocs se calcule 
sans peine. La méthode numérique établie à partir de cette décom- 
position impose l’exécution de n° (p + r)/r opérations arithmétiques 
environ, contenues dans 2n“*/r mots de mémoire d’un ordinateur. 

Certains systèmes aux matrices complexes peuvent être résolus 
en les réduisant aux systèmes à structure plus simple. Supposons 
qu'une matrice est partitionnée en sous-matrices carrées. Appelons 
cette partition premier niveau. Supposons ensuite que chacune des 
sous-matrices du premier niveau est partitionnée à son tour de la 
même façon en sous-matrices carrées. Appelons cette partition 
deuxième niveau, etc. 

Introduisons dans notre exposé les classes y,, 6,, n. respective- 
ment des matrices d’ordre r diagonales par blocs, circulantes par 
blocs et de Tieplitz par blocs. Entendons par x, la classe des autres 
matrices partitionnées quelconques de même ordre. Considérons 
maintenant les systèmes dont les matrices sont données par la suite 
PRE PRE Last On.» où en chaque position, au lieu de 8 il y a l’une 
des lettres y, ©, n, x. Cela signifie que la partition du premier niveau 
est déterminée par le symbole On,» du deuxième, par le symbole 


0,., du dernier, par le symbole 0, - 


” Supposons que s’ lettres de la suite donnée coïncident soit avec y, 
soit avec 6, et les ordres correspondants des partitions sont égaux 
à Ag; +. Pa, Il s'avère que la résolution du système initial 
à l’aide de la transformation unitaire ne dépendant pas des valeurs 
des éléments de la matrice, se ramène à la résolution de n,,, ... 


... lg, systèmes. Ces systèmes ont la même structure définie par 
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la suite des symboles obtenue par effacement formel de toutes les 
lettres y et o. 

Les matrices examinées se rencontrent souvent dans les appli- 
cations, surtout lorsqu'il s’agit de résoudre des équations intégrales 
de r dimensions. Dans les cas courants, leur ordre est si grand que 
Ja réduction aux systèmes de plus petit ordre et l'estimation exacte 
du caractère spécifique s'avère la seule méthode possible de leur 
résolution. 

Un nombre important de problèmes théoriques et appliqués 
impose la résolution de grands systèmes algébriques aux matrices 
creuses. Ces matrices comptent de nombreux éléments nuls. Si les 
éléments non nuls sont répartis suivant la fig. 27.3, la résolution 
de tels systèmes s'avère très efficace lorsqu'on applique la méthode 
de Gauss. L'efficacité de la méthode est d'autant plus élevée, que 
l'aire hachurée de la figure 27.3 ainsi que le nombre d'éléments 
nuls dans cette aire sont plus petits. 

La dernière remarque est à la base de nombreux procédés de 
transformation préalable d’une matrice creuse. Généralement, ces 
transformations ne consistent qu’en la permutation des lignes et des 
colonnes et leur objectif est de diminuer le temps total de calcul 
du problème, ou bien de réduire le volume de la mémoire nécessaire. 
L'effet produit par de telles transformations peut être très grand. 
Examinons, par exemple, les matrices de la forme 


æÆ x X x x % o * 
x + 0 z «| 
x 3 , 0 3 x 
x 0 # x x | 
> x x x x x x J 


d'ordre z dont chacune s'obtient à partir d’une autre à l’aide des 
permutations des lignes et des colonnes. Pour décomposer la première 
matrice en produit de facteurs triangulaires, il faux exécuter (2/3) n° 
opérations arithmétiques rangées dans n° mots de mémoire, puisque 
les deux facteurs triangulaires sont des matrices complètes. Pour 
décomposer la deuxième matrice, il faut exécuter 2r opérations 
en ne disposant que de 3x mots de mémoire. 

Si les éléments non nuls d'une matrice creuse sont disposés 
sans un ordre explicite quelconque, il est très difficile de trouver 
des matrices des permutations correspondantes. Pour résoudre ce 
problème il faut souvent faire appel à de diverses méthodes de 
l'analyse combinatoire, de la théorie des graphes, de la programma- 
tion en nombres entiers, etc. Toutefois, les frais de transformation 
préalable des matrices creuses se justifient complètement si les 
matrices elles-mêmes sont de grande taille et si les systèmes qui les 
comportent présentent des problèmes répétitifs. Ce sont des situations 
qui se présentent dans la commande opératoire des réseaux électri- 
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ques, des flux de transport, des processus technologiques. Certes, 
des transformations analogues peuvent être également réalisées avec 
des matrices creuses partitionnées. 

Les problèmes de grande taille des valeurs propres sont bien 
plus rares que les systèmes de grande taille d'équations linéaires. 
Il est surtout rare qu’on ait à résoudre des problèmes complets 
sur des matrices de grande taille. Pourtant, si la nécessité se présente, 
ces problèmes sont également résolus avec succès. 

Pour résoudre les problèmes de grande taille par la méthode 
de bissection, aucun besoin n’est de soumettre la méthode à des 
modifications. Des cas sont connus où elle a permis d'étudier la 
distribution des valeurs propres des matrices de Jacobi dont l’ordre 
dépassait des dizaines de milliers. Une matrice complète de grand 
ordre se réduit avantageusement à la forme quasi triangulaire à 
l’aide d’une des variantes partitionnées des transformations de rota- 
tion ou de Householder. On peut lui appliquer ensuite l’une des 
méthodes numériques, par exemple, l’algorithme @R ou les itéra- 
tions inverses. Là encore pour diminuer le coefficient des pertes 
il est avantageux d'utiliser les variantes partitionnées des méthodes. 

En discutant des modes de résolution des problèmes de grande 
taille de l’algèbre linéaire nous ne nous sommes pas posé pour tâche 
de donner une analyse détaillée des méthodes existantes. Cependant, 
nous voudrions attirer l’attention sur le fait que de tels problèmes 
peuvent être résolus avec une efficacité suffisante. Pour une initia- 
tion plus complète sur ces sujets nous renvoyons le lecteur à l'aperçu 
{7] et à l'index bibliographique [8]. 
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